Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье
Focused crawling: A new approach to topic-specific Web resource discovery .
Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.
И самое главное - no content. Запустили еще один клон DMOZ.
Зачем?
По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.
Правильно. К сожалению, на русском языке литературы по этой теме почти нет. Для поверхностного ознакомления с архитектурой поисковой системы могу порекомендовать разве что эту
ссылку. Если с английским проблем нет, то для понимания принципов будет достаточно прочтения одного документа.
Rodion, что-то ты все напрочь перемешал. Робот, то есть спайдер, должен только ходить по неизвестным ссылкам и складывать страницы в хранилище, а индексатор только обрабатывать эти страницы и создавать индексы. При этом сохранять все в реляционных базах не самая лучшая идея - как ты сможешь потом обновлять индекс, если какая-нибудь страница изменилась?
Присоединяюсь! Долгих и счастливых совместных лет жизни!
А в чем собственно заключается вопрос? Краткое введение в метапоисковики можно найти прямо на этом сайте.
Любопытно, а имеют ли кластера тематическую связь или документы хранятся хаотично? И все ли они являются равнозначными, то есть имеющими одинаковый приоритет обработки?
А для часто обновляющихся сайтов случайно не собирается никаких особых частичных индексов? Если сумматор работает настолько хорошо и быстро, это было бы логичным решением.
Это интересно :)
А не возникала ли идея пойти еще дальше и обрабатывать поисковые фразы других поисковиков, по которым на сайт приходят люди? Их можно спокойно взять из статистики top100 и попробовать расширить ими область видимости каждого сайта.
Возможно, при правильном подходе это позволило бы использовать более высокие показатели свежести поисковых баз других искалок и повысить релевантность выдачи. Скажем, если пользователи по определенным запросам в большом количестве приходят на какой-то сайт с того же Яндекса или Гугла, а у вас он уже давно затерялся где-то в дельте, то там вполне может быть что-то интересное пользователю и такая примесь может быть оправданной.
Игорь, регулярно проверяю почту, но, к сожалению, ничего не получил. Можно попробовать tikhonov @ metaping.com или личное сообщение данного форума.