Нужен софт, собирающий информацию с страниц сайтов

se_home
На сайте с 17.01.2007
Offline
84
820

Стоит задача - собрать активные ссылки с большого числа страниц (500к и больше), которые задаются текстовым файлом. С сервера linux или win - не важно, разные есть у меня. Желательно быстро и многопоточно. Желательно, чтобы была какая-то опция, мол, собирать активные ссылки или просто упоминание урла на странице.

Была тема: /ru/forum/178997

В первом скрипте все хорошо, но очень медленно - и нужные мне объемы не обрабатывает.

Пока вот нашел http://xkovator.com/ - Модуль "URLs Checks". Может кто может подсказать другие варианты софта, который можно использовать под мою задачу?

ciber
На сайте с 04.01.2008
Offline
215
#1

Проблема не в скрипте, а медленном канале. ИМХО

se_home
На сайте с 17.01.2007
Offline
84
#2

Канал 100 Mbit на серваке.

ciber
На сайте с 04.01.2008
Offline
215
#3
se_home:
Канал 100 Mbit на серваке.

От сервака до стойки? А до пациентов с которых собирается инфа?

se_home
На сайте с 17.01.2007
Offline
84
#4
ciber:
От сервака до стойки? А до пациентов с которых собирается инфа?

Вот поэтому я и написал, что желательна многопоточность. Надо использовать все ресурсы сервера.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий