Если разговор действительно серьезный, попробуйте написать Игорю Ашманову по адресу info (собака) ashmanov.com и подробно рассказать, какой нужен поиск.
У него есть услуга поиска по заказанному списку сайтов.
Небольшое замечание - этот вопрос не для раздела о поисковых технологиях. Переношу.
Прямой, конечно.
Ну так ранжировать нужно по каким-то данным, прежде чем поднимать цитаты по прямому индексу.
Морфологический анализатор имени Коваленко.
Сказал за себя и за Коваленко. Насколько я помню, у него цитатник тоже строится поблочно. Впрочем, лучше спросить у него самого, как там сделано в новой версии поиска.
euhenio, структуры данных для хранения координат и блоки для цитирования определяют сами разработчики, и естественно, что у каждого поисковика они свои собственные.
Подробнее поспрашивайте их сами.
Дай бог нормально пережить перевыборы, а там хоть каждый день конференции проводить будем. :)
Я буду, если все сложится.
К сожалению, ничего. Такие вещи предпочитаю читать в оригинале. :)
И Вам советую.
К инвертированному файлу всегда идет словарь. Лексикон называется.
Координаты могут быть разными. В индексе могут храниться, как только номера документов, так и позиции слов в тексте, так и смещения позиций друг от друга.
Нет. Контент хранится блоками, координаты адресуют позиции слов в каждом блоке.
greenwood, хорош флеймить. С оптимизацией это никак не вяжется, раздел так и называется - "Поисковые технологии".