Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Тематическая поисковая система (до 1000 сайтов) - как делать?

23 декабря 2005, 10:22

Врядли они захотят плодить себе конкурентов виде тематических поисковых систем :-)

Бросьте, сила Google не в алгоритмах, а в бизнес-модели. Просто пока они не видят в подобных поисковых решениях экономической выгоды.

Как делать сниппет?

23 декабря 2005, 10:16

Вопрос - как их правильно делать, может есть готовые алгоритмы или толково описанный принцип их создания?

Нужно разделить весь текст документа на блоки и хранить в индексе для каждого слова координаты всех блоков, где оно встречается. Для более точного поиска кроме номеров документа и блока можно хранить и позицию слова в блоке, как это делается во всех современных полнотекстовых поисковиках - это поможет и при организации поиска со строгим соответствием, и при поиске со смещением, когда нужно найти термы, отстоящие на несколько слов друг от друга.

Поиск в Интернет файлов заданных расширений

22 декабря 2005, 11:51

точнее с какой целью - индексирование тематически близких новостных сюжетов

Нет, нахождение новых новостных ресурсов. На HITS там построено обновление самих сайтов, когда регулярно сканируются только хабы.

Поиск в Интернет файлов заданных расширений

22 декабря 2005, 11:09

может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов

Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.

Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.

Поиск в Интернет файлов заданных расширений

21 декабря 2005, 23:53

Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

Поиск в Интернет файлов заданных расширений

21 декабря 2005, 22:43

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.

Поиск в Интернет файлов заданных расширений

21 декабря 2005, 14:21

Меня интересуют специфичные форматы... и вообще те расширения файлов, которые я захочу искать... т.е. чтобы настраивалось

Можно искать файлы прямо по файловым архивам, например, так (для .avi):

+avi -html -htm -cgi -asp -aspx -php -jsp -shtml "index of"

и еще просьба модераторам - перенести тему в раздел "поисковые технологии" (там где она была создана), а не в раздел от новичков.... я не новичок отнюдь

Вообще-то вопрос никак не относится к поисковым технологиям.

Поиск в Интернет файлов заданных расширений

21 декабря 2005, 12:12

если есть знающие то может кто подскажет что можно почитать и поглядеть по этому вопросы?

Вы в Google по filetype: искать не пробовали?

Тематическая поисковая система (до 1000 сайтов) - как делать?

21 декабря 2005, 12:01

нифига, координатный индекс - есть

Значит неудовлетворительно работает при близких координатах искомых слов. Например, для запроса египетские технологии поисковик не находит документы с этой фразой, хотя они в индексе есть.

Тематическая поисковая система (до 1000 сайтов) - как делать?

21 декабря 2005, 10:52

1. Выдаются далеко не основные сайты.
2. Они малопосещаемые (кроме четвёртого, ригелевского).

Похоже, что нет индекса цитируемости сайтов, поэтому так работает. Механически что-то ищет, но координатного индекса тоже нет. Кроме того, неудобоваримые сниппеты.

В общем, критиковать можно долго.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Все что нужно знать о DDоS-атаках грамотному менеджеру

Vyacheslav Tikhonov