Оптимальные решения для повышения скорости парсинга

199

_mihey

9 сентября 2009, 21:00

1102

Работающий на сокетах парсинг, забирающий страницу и ищущий в ней теги <a>, работает недостаточно быстро, в секунду скачивает и обрабатывает 4-8 страниц. Хочется выйти на мощность порядка 200 страниц в секунду (17 млн проверок в день).

Может кто подскажет, как наличие миллионов проверяемых ссылок в день проверяет Сейп, Мэйнлинк, Сеопульт. Какие для этого используются мощности и как построены программные решения:

- парсятся ли страницы на hdd или в оперативку ?

- Как и какими средствами, языками программирования можно максимально ускорить процесс ?

- Используется ли html DOM ?

Есть ли готовые, оптимизированные по скорости, решения для этих задач ?

Куплю размещение статей с трансляцией в Я.Новости (/ru/forum/833079)

321

Zonk

9 сентября 2009, 21:06

#1

У нас паук проверяет 17 млн ссылок за 5 часов. Паук на C, проверяет с разных ip, чтобы хостинги не забанили, кроме проверки наличия ссылки обновляет и кол-во внешних на странице. Паук работает на одном слабеньком сервере с 1 гб памяти.

P.S. А зачем вам проверять 17 млн ссылок? ;)

199

_mihey

9 сентября 2009, 21:11

#2

Zonk:
У нас паук проверяет 17 млн ссылок за 5 часов. Паук на C, проверяет с разных ip, чтобы хостинги не забанили.

Zonk, спасибо за ответ. Все IP и паук на одном отдельном сервере? Насколько много IP берется под это? До тысячи или больше? Куча страниц одновременно парсится в оперативку, обрабатывается пачкой и стирается, или каждая страница отдельно загружается, проверяется, стирается ? В С с помощью семафоров или иное решение?

17 млн ссылок - расчетная мощность для проверки определенной части ссылок с сапы для последующего анализа результатов)

_mihey добавил 10.09.2009 в 14:30

Уточню один из вопросов:

Как обрабатывается html DOM - регекспами или XML парсингом ?

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ