- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Сами пишите на своих ангри и мультикурлах, я наелся уже, спасибо.
даже без всех этих умных слов на пхп в свое время писал парсер 100500 ссылок, скорость парсинга упиралась в канал 10 мб/с, мне хватало. Но если писать аналог яндекса, то конечно пхп не лучший выбор, в остальном он вполне пойдет.
Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.
Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.
Если чем-то не умеем пользоваться - лучше это в руки не брать - факт доказанный.
А по теме - на чем сумеете - а том и пишите. В вашем случаи главное логика, а не язык.
Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.
PHP на 95% есть обёртка вокруг C функций. В общем-то сам пых на сишке и написан, как и его либы. И если мозга не хватает писать нормально, то грех жаловаться на язык.
vob2014, благодарю. Паскаль/дельфи изучались лет 10 назад. Вроде было просто. С php работаю последнее время.
Учить новый язык не сильно хочется, но понимать основы и код граббера нужно.
C# будет сильно быстрее python/perl? Там вроде надо за памятью следить внимательнее?
Я сделал на делфи. Многопоточное приложение. Чтоб не нагружать сайты, делайте парсинг по кругу, сохраняя ссылки в бд.
В случае, когда он транслирует шаблон на сайте, да.
А когда нужно открыть 5к соединений (у ТС задачка - чекнуть всю ру-зону на наличие строки, да побыстрее), при этом хосты подвисают через один, отвечают хз как, а мультикурл начинает течь - то тут и задумаемся php или нет.
ps А сам люблю php и пишу на нем уже несколько (> 5) лет. Но здесь задачи-то иные. Короче, по теме топика.
pps А если из дома под windows , то checkparams (у меня держал 1300 потоков на Windows 7).
ppps Кстати, немаловажный момент: через некоторое время, возможно, будут трудности с dns на таких скоростях.
В случае, когда он транслирует шаблон на сайте, да.
А когда нужно открыть 5к соединений (у ТС задачка - чекнуть всю ру-зону на наличие строки, да побыстрее), при этом хосты подвисают через один, отвечают хз как, а мультикурл начинает течь - то тут и задумаемся php или нет.
ps А сам люблю php и пишу на нем уже несколько (> 5) лет. Но здесь задачи-то иные.
Какое отношение либа cURL имеет к самому языку? Вы не умеете соединяться к удалёнными ресурсами иначе или просто не отличаете язык от сторонних либ?
Коллеги, на каком языке предпочтительнее (в плане производительности) писать многопоточный граббер контента с сайтов?
Если серверный вариант - то на Go.
Параллельные вычисления, богатая стандартная библиотека, масса сторонних библиотек, есть возможность использовать библиотеки C и C++. Пример на Хабре
топик стартеру - оказывается CURL есть на Дельфи http://parsing-and-i.blogspot.ru/2010/11/delphi-curl-curlpas.html
Похоже переучиваться вам не надо!
Вопрос: граббинг через мультикурл на дельфи будет по скорости таким-же, как на apache+php?
P.S.: что-то неблокируемые сокеты читают только часть страницы...