Это не совсем так.
Русские морфологии в западных системах растут из нескольких мест.
1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.
Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.
2. Fast. (он же Lycos, а теперь уже и Overture). Там морфология другая, она похоже качественней. Кто ее делал, я не знаю. Сам Фаст очень быстрая и масштабируемая искалка. Если нужно поставить что-то для индексации какого-нибудь Веба то реальный выбор только между продуктами Альтависты и Фастом.
3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi
Вот пожалуй и все. (Кстати, Андрей, а в руссифицированном Excalibur-е чья морфология - не твоя ли?)
Цены западных систем (навскидку):
Verity, Excalibur, Autonomy, Recommind, Fast - все от 100-150 тысяч и выше.
Google-In-The-Box встанет не дешевле (морфологий там нет в принципе: у них такая идеология)
Ultraseek - единственный недорогой масштабируемый по цене продукт, похожий по лицензионной политике на Я-Сайт. Но все равно подороже.
Подробнее: www.searchtools.com
Илья
У есть меня более полный список:
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156
Это как надо понимать? :)
Опишите задачу подробней:
1. Что кроме непосредственно поиска нужно и с каким приоритетом?
(чистка дублей, группирование выдачи, тематическая классификация, настройки поискового интерфейса, права доступа - направлений миллион .... и т.д. и т.п.)
2. Количественные показатели задач (размер коллекции, число пользоветелей, время обновления)
2. Качественные (форматы, способ хранения данных)
и т.д. и т.п.
P.S.
А почему в списке нет иностранцев? Или главная задача - "чтобы было и чтобы было дешево"?
Вопрос в том сколько их. Если "найдена" тысяча, и вы делаете сервис для людей, а не для автомата, то по ИЛИ искать не нужно.
Как что? Преобразовывать конечно.
Слово "А" встречается в 1 миллионе документов. Слово "Б" в другом миллионе.
Фраза "А и Б" встречается в 1 тысяче.
Ранжировать и сортировать надо не два миллиона документов, а только 1 тысячу.
"оставить 1 тысячу" = "отфильтровать"
Ранжирование и фильтрация - разные процессы. Отфильтрованный массив - маленький.
Запросов с логикой ИЛИ - доли процента.
1. Описание документа на данном этапе это его идентификатор: число размером в 4 байта.
2. Массивы предварительно упорядочены по идентификаторам документов, поэтому просматриваются последовательно и один раз
3. Желателен "субиндекс" внутри массивов (блочная орагнизация, self-indexing - называют это по разному) - он позволяет "перепрыгивать" через отрезки массивов.
4. Основное итерирование должно идти по более короткому массиву, тогда большие куски можно будет "перепрыгивать, не читая" ("zig-zag joins" - что такое было на предпоследнем sigir, но саму статью не читал, так что может она и не про это :))
3. Частоты 2 миллиона (или 5 миллионов) это типичные стоп-слова в типичном индексе на несколько миллионов документов.
4. Тем не менее для частотных "тяжелых" сочетаний полезно делать предвычисленный фразовый индекс. Так работал infoseek. У Макса Губина статья на последнем RCDL про то, как эффективно паковать фразовый индекс.
Как видите, не так страшен черт.
А вообще есть куча статей на эту тему, может я чего и не знаю...
я старался :)
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539
А вообще, посмотрите там список литературы
Зализняк: стр 680.
почитать (3)
нсв
1а [Х]
(*) 7
почесть
Это два вида одного глагола.
Мы сливаем видовые пары.
И правильно делаем.
Посмотрим.
:)
mp3 - на 90% контрафакт и ни один сервис по поиску mp3 не легитимен по совей природе, плюс исключительно некачественен. Дело в том что собирателей ворованных mp3 гоняют как зайцев с сервера на сервер.
Если в поиске текстов 90% выдачи - нормальный авторский текст (в среднем),
который лежит устойчиво на своем месте, то в случае с mp3 ситуация ровно противоположная.
MP3 - это в 99% случаев чужая музыка, которая в среднем дольше недели на сервере не лежит. Я говорю сейчас про хостинг, скажем, на Народе, не знаю точно как там у Зенона или кого еще, но думаю, что очень похоже, достаточно взглянуть на лицензионные соглашения :).
Так кому нужен такой сервис? :)
Качественный парсер нового формата - непростая вещь. (хотя есть несложные форматы, это безусловно)
"Универсальность" - понятие растяжимое.
Вот это как раз ключевой вопрос.
Но мы прочитали вот это и решили, что тоже имеем такое же право:
Decoding GIFs is a different issue. The Unisys and IBM patents are both written in such a way that they do not apply to a program which can only uncompress LZW format and cannot compress. Therefore we can and will include support for displaying GIF files in GNU software.
http://www.gnu.org/philosophy/gif.html
Конечно, нет.
Не индексируются документы с флажком "НЕ КОПИРОВАТЬ".
Не индексируются запароленные документы