Dim

Рейтинг
15
Регистрация
01.02.2001
Интересы
Когнитивные методы анализа текстов, кластерный частотный анализ, индексация документов

Уважаемый Вячеслав,

Где можно посмотреть демо версию вашего стеммера?

(ссылка выше - не работает)

есть ли DLL (.so)?

интерес - научный, я уже тестировал 2 стеммера от Keva и версию Сигаловича.

"Рамблер неизвестные слова тоже хэширует,

но очень хитро. Как - долго рассказывать."

Разрешите поинтересоваться как? И где посмотреть поподробнее?

To: iseg

На сколько я помню в Dialog`95 была статья о "Реализации словаря на основе разряженой хэш таблицы" - каждой основе сопоставлялся определенный набор афиксов, а номер вхождения определенной цепочки в хэш-таблицу (14-битный ключ) являлся определяющим для какого-либо слова. Используется ли именно этот идентификатор при инвертировании и сколько байт отводится на одно слово в ИФ?

На какой основе (алгоритме) от слова отбрасываются морфы?

"Михаил Маслов... Для несловарных слов используются идея Белоногова-Аношкиной-моя." Методы перебора? можно ли где-то об этом почитать?

Есть ли ограничения в модели на длину слова?

Опять же о статье Dialog`95 С какой целью ранжировались результаты по частотам встречаемости слов?

"у нас работает колдунщик который может посоветовать вместо "интерьнет" поискать "интернет"...." - какие механизмы в основе колдования:)?

Спеллер? Словарь вариантов заведомо неправильных слов? Поиск на нечеткое равенстово?

Спасибо,

просто очень интересно что как устроено/

Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.

Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...

7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.

8)По каким словам анализ не осуществляется?

Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.

Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...

7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.

8)По каким словам анализ не осуществляется?

Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).

5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?

Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)

6) Где хранится словарь парадигм (хэш-таблица)?

Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).

5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?

Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)

6) Где хранится словарь парадигм (хэш-таблица)?

4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?

4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?