На чем писать паука?

Mik Foxi
На сайте с 02.03.2011
Offline
1214
#11
ant_key:
Сами пишите на своих ангри и мультикурлах, я наелся уже, спасибо.

даже без всех этих умных слов на пхп в свое время писал парсер 100500 ссылок, скорость парсинга упиралась в канал 10 мб/с, мне хватало. Но если писать аналог яндекса, то конечно пхп не лучший выбор, в остальном он вполне пойдет.

Антибот, антиспам, веб фаервол, защита от накрутки поведенческих: https://antibot.cloud/ (Зеркало: https://антибот.рф/ ) Форум на замену серчу: https://foxi.biz/
AK
На сайте с 23.02.2009
Offline
117
#12

Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.

bay_ebook
На сайте с 28.05.2010
Offline
111
#13
ant_key:
Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.

Если чем-то не умеем пользоваться - лучше это в руки не брать - факт доказанный.

А по теме - на чем сумеете - а том и пишите. В вашем случаи главное логика, а не язык.

Нужен прогер на php+mysql+понимание чужего кода? (/ru/forum/540660) Вам сюда PHP-шаман (http://php-shaman.pw/)
Mad_Man
На сайте с 10.11.2008
Offline
162
#14
ant_key:
Писать краулер на php - это как анальный секс: в принципе, можно почему и нет. Но ж*па все-таки для другого предназначена.

PHP на 95% есть обёртка вокруг C функций. В общем-то сам пых на сишке и написан, как и его либы. И если мозга не хватает писать нормально, то грех жаловаться на язык.

S
На сайте с 19.06.2009
Offline
125
#15
pastuhoff:
vob2014, благодарю. Паскаль/дельфи изучались лет 10 назад. Вроде было просто. С php работаю последнее время.
Учить новый язык не сильно хочется, но понимать основы и код граббера нужно.
C# будет сильно быстрее python/perl? Там вроде надо за памятью следить внимательнее?

Я сделал на делфи. Многопоточное приложение. Чтоб не нагружать сайты, делайте парсинг по кругу, сохраняя ссылки в бд.

Аудит и продвижение сайтов. Настройка/видение YD/GA Обучение Миллиарды ключей по Вашей тематике. Коммерческие доры на заказ. Обучение. Перехватываю домены ТУТ (https://goo.gl/njPaFq).
AK
На сайте с 23.02.2009
Offline
117
#16
PHP на 95% есть обёртка вокруг C функций. В общем-то сам пых на сишке и написан. Какая разница чем транслировать и в без того быстрый язык?

В случае, когда он транслирует шаблон на сайте, да.

А когда нужно открыть 5к соединений (у ТС задачка - чекнуть всю ру-зону на наличие строки, да побыстрее), при этом хосты подвисают через один, отвечают хз как, а мультикурл начинает течь - то тут и задумаемся php или нет.

ps А сам люблю php и пишу на нем уже несколько (> 5) лет. Но здесь задачи-то иные. Короче, по теме топика.

pps А если из дома под windows , то checkparams (у меня держал 1300 потоков на Windows 7).

ppps Кстати, немаловажный момент: через некоторое время, возможно, будут трудности с dns на таких скоростях.

Mad_Man
На сайте с 10.11.2008
Offline
162
#17
ant_key:
В случае, когда он транслирует шаблон на сайте, да.

А когда нужно открыть 5к соединений (у ТС задачка - чекнуть всю ру-зону на наличие строки, да побыстрее), при этом хосты подвисают через один, отвечают хз как, а мультикурл начинает течь - то тут и задумаемся php или нет.

ps А сам люблю php и пишу на нем уже несколько (> 5) лет. Но здесь задачи-то иные.

Какое отношение либа cURL имеет к самому языку? Вы не умеете соединяться к удалёнными ресурсами иначе или просто не отличаете язык от сторонних либ?

L
На сайте с 07.12.2007
Offline
351
#18
pastuhoff:
Коллеги, на каком языке предпочтительнее (в плане производительности) писать многопоточный граббер контента с сайтов?

Если серверный вариант - то на Go.

Параллельные вычисления, богатая стандартная библиотека, масса сторонних библиотек, есть возможность использовать библиотеки C и C++. Пример на Хабре

vob2014
На сайте с 30.03.2014
Offline
91
#19

топик стартеру - оказывается CURL есть на Дельфи http://parsing-and-i.blogspot.ru/2010/11/delphi-curl-curlpas.html

Похоже переучиваться вам не надо!

...
pastuhoff
На сайте с 29.10.2005
Offline
229
#20

Вопрос: граббинг через мультикурл на дельфи будет по скорости таким-же, как на apache+php?

P.S.: что-то неблокируемые сокеты читают только часть страницы...

Коллекционер доменных имен.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий