Оптимальные решения для повышения скорости парсинга

_mihey
На сайте с 15.07.2005
Offline
199
1102

Работающий на сокетах парсинг, забирающий страницу и ищущий в ней теги <a>, работает недостаточно быстро, в секунду скачивает и обрабатывает 4-8 страниц. Хочется выйти на мощность порядка 200 страниц в секунду (17 млн проверок в день).

Может кто подскажет, как наличие миллионов проверяемых ссылок в день проверяет Сейп, Мэйнлинк, Сеопульт. Какие для этого используются мощности и как построены программные решения:

- парсятся ли страницы на hdd или в оперативку ?

- Как и какими средствами, языками программирования можно максимально ускорить процесс ?

- Используется ли html DOM ?

Есть ли готовые, оптимизированные по скорости, решения для этих задач ?

Куплю размещение статей с трансляцией в Я.Новости (/ru/forum/833079)
Zonk
На сайте с 19.05.2006
Offline
321
#1

У нас паук проверяет 17 млн ссылок за 5 часов. Паук на C, проверяет с разных ip, чтобы хостинги не забанили, кроме проверки наличия ссылки обновляет и кол-во внешних на странице. Паук работает на одном слабеньком сервере с 1 гб памяти.

P.S. А зачем вам проверять 17 млн ссылок? ;)

_mihey
На сайте с 15.07.2005
Offline
199
#2
Zonk:
У нас паук проверяет 17 млн ссылок за 5 часов. Паук на C, проверяет с разных ip, чтобы хостинги не забанили.

Zonk, спасибо за ответ. Все IP и паук на одном отдельном сервере? Насколько много IP берется под это? До тысячи или больше? Куча страниц одновременно парсится в оперативку, обрабатывается пачкой и стирается, или каждая страница отдельно загружается, проверяется, стирается ? В С с помощью семафоров или иное решение?

17 млн ссылок - расчетная мощность для проверки определенной части ссылок с сапы для последующего анализа результатов)

_mihey добавил 10.09.2009 в 14:30

Уточню один из вопросов:

Как обрабатывается html DOM - регекспами или XML парсингом ?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий