Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Врядли они захотят плодить себе конкурентов виде тематических поисковых систем :-)

Бросьте, сила Google не в алгоритмах, а в бизнес-модели. Просто пока они не видят в подобных поисковых решениях экономической выгоды.

Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания?

Нужно разделить весь текст документа на блоки и хранить в индексе для каждого слова координаты всех блоков, где оно встречается. Для более точного поиска кроме номеров документа и блока можно хранить и позицию слова в блоке, как это делается во всех современных полнотекстовых поисковиках - это поможет и при организации поиска со строгим соответствием, и при поиске со смещением, когда нужно найти термы, отстоящие на несколько слов друг от друга.

точнее с какой целью - индексирование тематически близких новостных сюжетов

Нет, нахождение новых новостных ресурсов. На HITS там построено обновление самих сайтов, когда регулярно сканируются только хабы.

может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов

Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.

Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.

Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.

Меня интересуют специфичные форматы... и вообще те расширения файлов, которые я захочу искать... т.е. чтобы настраивалось

Можно искать файлы прямо по файловым архивам, например, так (для .avi):

+avi -html -htm -cgi -asp -aspx -php -jsp -shtml "index of"

и еще просьба модераторам - перенести тему в раздел "поисковые технологии" (там где она была создана), а не в раздел от новичков.... я не новичок отнюдь

Вообще-то вопрос никак не относится к поисковым технологиям.

если есть знающие то может кто подскажет что можно почитать и поглядеть по этому вопросы?

Вы в Google по filetype: искать не пробовали?

нифига, координатный индекс - есть

Значит неудовлетворительно работает при близких координатах искомых слов. Например, для запроса египетские технологии поисковик не находит документы с этой фразой, хотя они в индексе есть.

1. Выдаются далеко не основные сайты.
2. Они малопосещаемые (кроме четвёртого, ригелевского).

Похоже, что нет индекса цитируемости сайтов, поэтому так работает. Механически что-то ищет, но координатного индекса тоже нет. Кроме того, неудобоваримые сниппеты.

В общем, критиковать можно долго.

Всего: 847