Уважаемый Вячеслав,
Где можно посмотреть демо версию вашего стеммера?
(ссылка выше - не работает)
есть ли DLL (.so)?
интерес - научный, я уже тестировал 2 стеммера от Keva и версию Сигаловича.
"Рамблер неизвестные слова тоже хэширует,
но очень хитро. Как - долго рассказывать."
Разрешите поинтересоваться как? И где посмотреть поподробнее?
To: iseg
На сколько я помню в Dialog`95 была статья о "Реализации словаря на основе разряженой хэш таблицы" - каждой основе сопоставлялся определенный набор афиксов, а номер вхождения определенной цепочки в хэш-таблицу (14-битный ключ) являлся определяющим для какого-либо слова. Используется ли именно этот идентификатор при инвертировании и сколько байт отводится на одно слово в ИФ?
На какой основе (алгоритме) от слова отбрасываются морфы?
"Михаил Маслов... Для несловарных слов используются идея Белоногова-Аношкиной-моя." Методы перебора? можно ли где-то об этом почитать?
Есть ли ограничения в модели на длину слова?
Опять же о статье Dialog`95 С какой целью ранжировались результаты по частотам встречаемости слов?
"у нас работает колдунщик который может посоветовать вместо "интерьнет" поискать "интернет"...." - какие механизмы в основе колдования:)?
Спеллер? Словарь вариантов заведомо неправильных слов? Поиск на нечеткое равенстово?
Спасибо,
просто очень интересно что как устроено/
Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.
Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...
7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.
8)По каким словам анализ не осуществляется?
Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).
5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?
Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)
6) Где хранится словарь парадигм (хэш-таблица)?
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?