Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Подскажите, есть ли подобные минипоисковики и где их можно посмотреть

Если разговор действительно серьезный, попробуйте написать Игорю Ашманову по адресу info (собака) ashmanov.com и подробно рассказать, какой нужен поиск.

У него есть услуга поиска по заказанному списку сайтов.

Небольшое замечание - этот вопрос не для раздела о поисковых технологиях. Переношу.

Цитатник - это у тебя обратный индекс или прямой?

Прямой, конечно.

Вроде, изначально речь шла про обратный.

Ну так ранжировать нужно по каким-то данным, прежде чем поднимать цитаты по прямому индексу.

То есть - как решается задача использования и хранения функциональной связи (туда и обратно!) между рядом натуральных чисел и алфавитно упорядоченным набором ... ммм ... лексических единиц?

Морфологический анализатор имени Коваленко.

Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.

Сказал за себя и за Коваленко. Насколько я помню, у него цитатник тоже строится поблочно. Впрочем, лучше спросить у него самого, как там сделано в новой версии поиска.

-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?

euhenio, структуры данных для хранения координат и блоки для цитирования определяют сами разработчики, и естественно, что у каждого поисковика они свои собственные.

Подробнее поспрашивайте их сами.

Дай бог нормально пережить перевыборы, а там хоть каждый день конференции проводить будем. :)

Я буду, если все сложится.

- а по-русски ничего не поркомендуете ... про "сигнатурные файлы"?

К сожалению, ничего. Такие вещи предпочитаю читать в оригинале. :)

И Вам советую.

И потом, инвертированный файл - он ведь индексирует не СЛОВАРЬ, а КОНТЕНТ ... а то, что Вы наприсали про "сигнатурные файлы", - относится, вроде как, к СЛОВАРЮ, а не к КОНТЕНТУ!

К инвертированному файлу всегда идет словарь. Лексикон называется.

что значит "некие"? Координаты они и есть координаты ...

Координаты могут быть разными. В индексе могут храниться, как только номера документов, так и позиции слов в тексте, так и смещения позиций друг от друга.


А если "расставить" слова в соответсвии с указанными координатами, - разве не "востановится" исходный контент???

Нет. Контент хранится блоками, координаты адресуют позиции слов в каждом блоке.

еще тише .... прочитал ... а как это с оптимизацией вяжется ?

greenwood, хорош флеймить. С оптимизацией это никак не вяжется, раздел так и называется - "Поисковые технологии".

Всего: 847