Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Нельзя ли уточнить термин "фокусированное сканирование".

Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье

Focused crawling: A new approach to topic-specific Web resource discovery .

Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.

Яндекс никогда не говорил о том, что рекламы на нем не будет.
А на этом - No banner. No buttons. No pop-ups.

И самое главное - no content. Запустили еще один клон DMOZ.

Зачем?

Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД.

По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

Не могли бы вы дать ссылку где почитать теорию, или написать прямо здесь в форуме. Если я правильно понял, то спайдер - это то, что я назвал роботом. Правильно?

Правильно. К сожалению, на русском языке литературы по этой теме почти нет. Для поверхностного ознакомления с архитектурой поисковой системы могу порекомендовать разве что эту

ссылку. Если с английским проблем нет, то для понимания принципов будет достаточно прочтения одного документа.

Rodion, что-то ты все напрочь перемешал. Робот, то есть спайдер, должен только ходить по неизвестным ссылкам и складывать страницы в хранилище, а индексатор только обрабатывать эти страницы и создавать индексы. При этом сохранять все в реляционных базах не самая лучшая идея - как ты сможешь потом обновлять индекс, если какая-нибудь страница изменилась?

Присоединяюсь! Долгих и счастливых совместных лет жизни!

Есть ли у кого аналитика или грамотные статейки (желательно на русском) по мета поисковым системам типа deltis.com?

А в чем собственно заключается вопрос? Краткое введение в метапоисковики можно найти прямо на этом сайте.

Как некоторые уже, наверное, знают, робот Рамблера "стаскивает" страницы из Интернета в локальное хранилище, а вся последующая работа идет уже с этим хранилищем. Хранилище состоит из 50-мб кусков, в которых "свалены" сжатые HTML-ки.

Любопытно, а имеют ли кластера тематическую связь или документы хранятся хаотично? И все ли они являются равнозначными, то есть имеющими одинаковый приоритет обработки?

После того, как частичные индексы построены, запускается специальная программа "сливатор", которая параллельно читает отсортированные списки, из которых, собственно, и состоят индексы, и строит результирующий суммарный индекс.

А для часто обновляющихся сайтов случайно не собирается никаких особых частичных индексов? Если сумматор работает настолько хорошо и быстро, это было бы логичным решением.

Если интересно, могу аналогично расписать и без малого 7 миллионов страниц, которые наши роботы скачали 24 ноября.

Это интересно :)

Как писал Keva
Да, недостатки у Сети есть. Есть они и у счетчика top100. Но почему-то лучше Интернета и объективнее счетчика top100 пока ничего не придумали .

А не возникала ли идея пойти еще дальше и обрабатывать поисковые фразы других поисковиков, по которым на сайт приходят люди? Их можно спокойно взять из статистики top100 и попробовать расширить ими область видимости каждого сайта.

Возможно, при правильном подходе это позволило бы использовать более высокие показатели свежести поисковых баз других искалок и повысить релевантность выдачи. Скажем, если пользователи по определенным запросам в большом количестве приходят на какой-то сайт с того же Яндекса или Гугла, а у вас он уже давно затерялся где-то в дельте, то там вполне может быть что-то интересное пользователю и такая примесь может быть оправданной.

Вячеслав, я Вам письмо написал дня три назад, но ответа нет. Не дошло письмо?

Игорь, регулярно проверяю почту, но, к сожалению, ничего не получил. Можно попробовать tikhonov @ metaping.com или личное сообщение данного форума.

Всего: 847