На чем писать паука?

pastuhoff
На сайте с 29.10.2005
Offline
229
2987

Коллеги, на каком языке предпочтительнее (в плане производительности) писать многопоточный граббер контента с сайтов?

Как сильно будет влиять тип/версия ОС на производительность на одном и том-же железе?

Коллекционер доменных имен.
AK
На сайте с 23.02.2009
Offline
117
#1

1. erlang

2. js: node.js + phantom.js (если будем бегать браузером)

3. python + gevent неплох

4. на чем нравится, кроме php (по понятным причинам) :)

-------

Это если масштабного паука делать. А если парсить с одного сайта, то всё равно на чем - большинство сайтов все равно лягут (от нагрузки - маленькие) или забанят (большие - их уже сто раз парсили).

cyberianbrain
На сайте с 16.09.2009
Offline
64
#2

проще на пхп, но если не принципиально, то лучеш перл и под линукс

pastuhoff
На сайте с 29.10.2005
Offline
229
#3

Пока хочется со своего средненького десктопа обойти зону .ru (только морды) за пару часов. Реально ли это в принципе?

eis
На сайте с 18.10.2008
Offline
473
eis
#4
ant_key:
4. на чем нравится, кроме php (по понятным причинам)

По каким причинам ?☝

- Здесь я покупаю вечные ссылки на свои сайты! (https://backlinkator.com) - сотни ссылок за копейки
pastuhoff
На сайте с 29.10.2005
Offline
229
#5

Вроде как есть мысли о python/perl/c (не знаю ни одного из них, знаю php [с его мультикурлом], паскаль/дельфи). Что будет работать быстрее?

vob2014
На сайте с 30.03.2014
Offline
91
#6

На С# - где-то на гитхабе видел готовые граберы. Если осилил не самый простой язык - объектный Паскаль (ака Дельфи), то C# пойдет как по маслу, если жестко не рубиться в глубины "диковиных синтаксических примочек" то там все ясно и понятно, проще объектного Паскаля. + Доки - микрософтовские отличные. Распаралеливание на C# сделано хорошо, удобно, логично-продумано. Вместо него также можно использовать асинхронность, тоже неплохо реализовано. Можно взять виндовскую впс с доступом к экрану и парсить оттуда круглосуточно.

...
Mik Foxi
На сайте с 02.03.2011
Offline
1076
#7
eis:
По каким причинам ?☝

по причинам криворукости некоторых кодеров )

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
pastuhoff
На сайте с 29.10.2005
Offline
229
#8

vob2014, благодарю. Паскаль/дельфи изучались лет 10 назад. Вроде было просто. С php работаю последнее время.

Учить новый язык не сильно хочется, но понимать основы и код граббера нужно.

C# будет сильно быстрее python/perl? Там вроде надо за памятью следить внимательнее?

AK
На сайте с 23.02.2009
Offline
117
#9
foxi:
по причинам криворукости некоторых кодеров )

Сами пишите на своих ангри и мультикурлах, я наелся уже, спасибо.

N3
На сайте с 28.04.2014
Offline
98
#10

Без разницы на чем писать, главное делать это правильно. Некоторые и на автоите пишут простенькие грабберы и даже ботов для игр.

Неискоренимо нежелание пользоваться поисковыми системами - даже находясь на форуме о поисковых системах © Cell Влазить напрямую в базу — это невозможно © Игорь Белов, mchost.ru Если SeoPult купил ссылку - значит она "рабочая" © Nat_SeoPult

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий