iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Как писал Keva
отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.

Это не совсем так.

Русские морфологии в западных системах растут из нескольких мест.

1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.

Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.

2. Fast. (он же Lycos, а теперь уже и Overture). Там морфология другая, она похоже качественней. Кто ее делал, я не знаю. Сам Фаст очень быстрая и масштабируемая искалка. Если нужно поставить что-то для индексации какого-нибудь Веба то реальный выбор только между продуктами Альтависты и Фастом.

3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi

Вот пожалуй и все. (Кстати, Андрей, а в руссифицированном Excalibur-е чья морфология - не твоя ли?)

Цены западных систем (навскидку):

Verity, Excalibur, Autonomy, Recommind, Fast - все от 100-150 тысяч и выше.

Google-In-The-Box встанет не дешевле (морфологий там нет в принципе: у них такая идеология)

Ultraseek - единственный недорогой масштабируемый по цене продукт, похожий по лицензионной политике на Я-Сайт. Но все равно подороже.

Подробнее: www.searchtools.com

Илья

я накопал некоторое количество

У есть меня более полный список:

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156

с точки зрения удобности партнерства

Это как надо понимать? :)

Есть мнения о качестве систем и т.п.?

Опишите задачу подробней:

1. Что кроме непосредственно поиска нужно и с каким приоритетом?

(чистка дублей, группирование выдачи, тематическая классификация, настройки поискового интерфейса, права доступа - направлений миллион .... и т.д. и т.п.)

2. Количественные показатели задач (размер коллекции, число пользоветелей, время обновления)

2. Качественные (форматы, способ хранения данных)

и т.д. и т.п.

Илья

P.S.

А почему в списке нет иностранцев? Или главная задача - "чтобы было и чтобы было дешево"?

Как писал mikek
хотелось бы сначала выводить результаты по "И", в потом по "ИЛИ"

Вопрос в том сколько их. Если "найдена" тысяча, и вы делаете сервис для людей, а не для автомата, то по ИЛИ искать не нужно.

что принято делать с  , &lt, >, », «, & и подобными словами ?

Как что? Преобразовывать конечно.

Как писал mikek
Что такое фильтрация и как она призводится ?

Слово "А" встречается в 1 миллионе документов. Слово "Б" в другом миллионе.

Фраза "А и Б" встречается в 1 тысяче.

Ранжировать и сортировать надо не два миллиона документов, а только 1 тысячу.

"оставить 1 тысячу" = "отфильтровать"

Как писал mikek
Что-то я не совсем понимаю, если массив упорядочен по идентификаторам документов, а результат необходимо отсортировать по релевантности, то нам все равно придется сливать их вместе целиком. После чего как-то узнавать релевантность и сортировать.

Ранжирование и фильтрация - разные процессы. Отфильтрованный массив - маленький.

Как писал mikek
Это, я так понимаю, только для логики "И", и не подходит, если нам надо найти документ содержащий хотя-бы одно поисковое слово из фразы.

Запросов с логикой ИЛИ - доли процента.

Как писал mikek
Приходится сливать массивы размер которых 2582547*sizeof(описание документа)+ 5121905* sizeof(описание документа)

1. Описание документа на данном этапе это его идентификатор: число размером в 4 байта.

2. Массивы предварительно упорядочены по идентификаторам документов, поэтому просматриваются последовательно и один раз

3. Желателен "субиндекс" внутри массивов (блочная орагнизация, self-indexing - называют это по разному) - он позволяет "перепрыгивать" через отрезки массивов.

4. Основное итерирование должно идти по более короткому массиву, тогда большие куски можно будет "перепрыгивать, не читая" ("zig-zag joins" - что такое было на предпоследнем sigir, но саму статью не читал, так что может она и не про это :))

3. Частоты 2 миллиона (или 5 миллионов) это типичные стоп-слова в типичном индексе на несколько миллионов документов.

4. Тем не менее для частотных "тяжелых" сочетаний полезно делать предвычисленный фразовый индекс. Так работал infoseek. У Макса Губина статья на последнем RCDL про то, как эффективно паковать фразовый индекс.

Как видите, не так страшен черт.

А вообще есть куча статей на эту тему, может я чего и не знаю...

Как писал Andrew.Balan
А кто-нибудь может очень просто на пальцах объяснить самый нормальный по их мнению метод индексироваия ?

я старался :)

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539

А вообще, посмотрите там список литературы

Как писал Ashmanov
Слово "почту" никак не является формой "почитать". Просто ни разу.

Зализняк: стр 680.

почитать (3)

нсв

1а [Х]

(*) 7

почесть

Это два вида одного глагола.

Мы сливаем видовые пары.

И правильно делаем.

Илья

1. Когда включите поддержку .doc, .xls и т.п. общеизвестных форматов?

Посмотрим.

:)

Не противоречит ли политике компании и будет ли когда-нибудь поисковик индексировать Видео и Аудиоинформаци - например уже сейчас с достаточно небольшими трудозатратами можно было бы начать индексирование mp3 и подобных форматов(благо метаинформации в них зачастую достаточно и она четко структурирована)?

mp3 - на 90% контрафакт и ни один сервис по поиску mp3 не легитимен по совей природе, плюс исключительно некачественен. Дело в том что собирателей ворованных mp3 гоняют как зайцев с сервера на сервер.

Если в поиске текстов 90% выдачи - нормальный авторский текст (в среднем),

который лежит устойчиво на своем месте, то в случае с mp3 ситуация ровно противоположная.

MP3 - это в 99% случаев чужая музыка, которая в среднем дольше недели на сервере не лежит. Я говорю сейчас про хостинг, скажем, на Народе, не знаю точно как там у Зенона или кого еще, но думаю, что очень похоже, достаточно взглянуть на лицензионные соглашения :).

Так кому нужен такой сервис? :)

Насколько сложно подключить к поисковику новый формат и вообще планируете ли развиваться в этом направлении - постепенное подключение новых форматов, для обеспечения действительно универсального поиска по ресурсам Рунета?

Качественный парсер нового формата - непростая вещь. (хотя есть несложные форматы, это безусловно)

"Универсальность" - понятие растяжимое.

:)

Как писал lexus
Насколько бесплатна лицензия на декомпрессию LZW я, честно говоря, еще не разбирался.

Вот это как раз ключевой вопрос.

Но мы прочитали вот это и решили, что тоже имеем такое же право:

Decoding GIFs is a different issue. The Unisys and IBM patents are both written in such a way that they do not apply to a program which can only uncompress LZW format and cannot compress. Therefore we can and will include support for displaying GIF files in GNU software.

http://www.gnu.org/philosophy/gif.html

А еще есть copyrighted pdf, защищенный криптоалгоритмом RC4.
Или такие документы не индексируются?

Конечно, нет.

Не индексируются документы с флажком "НЕ КОПИРОВАТЬ".

Не индексируются запароленные документы

Илья

Всего: 442