Комментарии - nis - Профиль вебмастера - Форум об интернет-маркетинге

wget в качестве паука

12 августа 2003, 11:42

все зависит от масштабов работы

wget довольно аккуратно качает и этот код конечно можно переиспользовать, но доводить конечно придется.

Например, он не умеет хранить очереди на диске =>

неустойчив к перезапуску и не готов выполнять длинные

задачи (список найденных и еще непосещенных ссылокрастет намного быстрее списка посещенных)

Далее - многопоточное скачивание, асинхронный DNS,

балансировщик нагрузки, реализация стратегии обхода ...

Вообщем, wget - это 10%.

Система сбора инфы в инете

5 июня 2003, 16:09

Как писал !Иван FXS

Имхо, Вы описали задачу слишком специфическую и узкую, - для того, чтобы можно было говорить об "основах" да еще "таких систем" (в множественном числе!) ...

Это вы зря.

Задача генерации запросов вероятно не совсем тривиальна (даже метапоисковые системы мучаются), а здесь надо переформулировать.

Если же речь идет еще и поисковом роботе,

то это еще сложнее поскольку кроме описания

цели поиска нужна еще и стратегия.

Это в англоязычной литературе обычно называют

focused или topical crawling.

Можно например посмотреть статью с www 2003 или предыдущие конференции, чтобы получить представление о том как это делается.

Если правила обработки текстов подразумевают

извлечение информации или трансформацию, то

возможно потребуются нетривиальные методы

information extraction.

Вообщем все очень сильно зависит от того какое качество результатов вы хотите получить и о каком объеме информации идет речь.

Базы данных поисковиков и не только

14 апреля 2003, 12:48

сравните

http://www.google.com.ru/

В индексе 3,083,324,652 документов

http://www.yandex.ru/chisla.html

Количество уникальных документов: 88 032 308

Кроме того это также зависит и от нагрузки (количества запросов в секунду)

Курс биткоина превысил $50 тысяч

Все что нужно знать о DDоS-атаках грамотному менеджеру

nis