Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Как подключить поисковик на своем веб сервере

24 января 2003, 10:21

Нельзя ли уточнить термин "фокусированное сканирование".

Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье

Focused crawling: A new approach to topic-specific Web resource discovery .

Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.

Новый поисковик без рекламы

22 января 2003, 14:45

Яндекс никогда не говорил о том, что рекламы на нем не будет.
А на этом - No banner. No buttons. No pop-ups.

И самое главное - no content. Запустили еще один клон DMOZ.

Зачем?

Как подключить поисковик на своем веб сервере

22 января 2003, 14:12

Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД.

По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

Как написать робота

18 января 2003, 20:56

Не могли бы вы дать ссылку где почитать теорию, или написать прямо здесь в форуме. Если я правильно понял, то спайдер - это то, что я назвал роботом. Правильно?

Правильно. К сожалению, на русском языке литературы по этой теме почти нет. Для поверхностного ознакомления с архитектурой поисковой системы могу порекомендовать разве что эту

ссылку. Если с английским проблем нет, то для понимания принципов будет достаточно прочтения одного документа.

Как написать робота

17 января 2003, 14:09

Rodion, что-то ты все напрочь перемешал. Робот, то есть спайдер, должен только ходить по неизвестным ссылкам и складывать страницы в хранилище, а индексатор только обрабатывать эти страницы и создавать индексы. При этом сохранять все в реляционных базах не самая лучшая идея - как ты сможешь потом обновлять индекс, если какая-нибудь страница изменилась?

Множество сегодняшних событий

16 декабря 2002, 09:49

Присоединяюсь! Долгих и счастливых совместных лет жизни!

мета поиск deltis.com

13 декабря 2002, 16:49

Есть ли у кого аналитика или грамотные статейки (желательно на русском) по мета поисковым системам типа deltis.com?

А в чем собственно заключается вопрос? Краткое введение в метапоисковики можно найти прямо на этом сайте.

Пресс релиз рамблера

11 декабря 2002, 23:45

Как некоторые уже, наверное, знают, робот Рамблера "стаскивает" страницы из Интернета в локальное хранилище, а вся последующая работа идет уже с этим хранилищем. Хранилище состоит из 50-мб кусков, в которых "свалены" сжатые HTML-ки.

Любопытно, а имеют ли кластера тематическую связь или документы хранятся хаотично? И все ли они являются равнозначными, то есть имеющими одинаковый приоритет обработки?

После того, как частичные индексы построены, запускается специальная программа "сливатор", которая параллельно читает отсортированные списки, из которых, собственно, и состоят индексы, и строит результирующий суммарный индекс.

А для часто обновляющихся сайтов случайно не собирается никаких особых частичных индексов? Если сумматор работает настолько хорошо и быстро, это было бы логичным решением.

Если интересно, могу аналогично расписать и без малого 7 миллионов страниц, которые наши роботы скачали 24 ноября.

Это интересно :)

Пресс релиз рамблера

11 декабря 2002, 23:22

Как писал Keva
Да, недостатки у Сети есть. Есть они и у счетчика top100. Но почему-то лучше Интернета и объективнее счетчика top100 пока ничего не придумали .

А не возникала ли идея пойти еще дальше и обрабатывать поисковые фразы других поисковиков, по которым на сайт приходят люди? Их можно спокойно взять из статистики top100 и попробовать расширить ими область видимости каждого сайта.

Возможно, при правильном подходе это позволило бы использовать более высокие показатели свежести поисковых баз других искалок и повысить релевантность выдачи. Скажем, если пользователи по определенным запросам в большом количестве приходят на какой-то сайт с того же Яндекса или Гугла, а у вас он уже давно затерялся где-то в дельте, то там вполне может быть что-то интересное пользователю и такая примесь может быть оправданной.

Алгоритмы

3 декабря 2002, 22:09

Вячеслав, я Вам письмо написал дня три назад, но ответа нет. Не дошло письмо?

Игорь, регулярно проверяю почту, но, к сожалению, ничего не получил. Можно попробовать tikhonov @ metaping.com или личное сообщение данного форума.

Дзен реализовал для авторов возможность вывода денег через СПБ

Что такое Power BI и зачем это нужно бизнесу

Vyacheslav Tikhonov