Как сделать морфологический поиск?

antono · 2006-02-09T16:11:42.0000000Z

Как можно реализовать поиск слов с учетом их морфологии? Не очень навороченный, но хотя бы чтоб окончания слов различал. Например на банк_рефератов при поиске окончания слов обрезаются и поиск происходит по обрезкам слов. Это получается нужно составить таблицу с окончаниями и обрабатывать поисковый запрос через нее. На верном ли я пути? И где вообще можно почитать по этой теме?

307

antono

13 февраля 2006, 19:19

#11

Спасибо всем ответившим. itman, я больше половины не понимаю что вы говорите :)

Хочу пока собрать базу окончаний и с ними попробовать поэкспериментировать. Нет уже готовых таких подборок? А то я искал список стоп-слов, набралось около 500.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

13 февраля 2006, 22:42

#12

http://www.artint.ru/projects/frqlist.asp

I

64

itman

14 февраля 2006, 08:24

#13

Я, вообще-то собираюсь в ближайшее время (4-5 месяцев) сделать ispell-based библиотеку и выложить ее в свободный доступ. Значит, теперь подробнее, что я имел в виду. Пусть есть какое-то слово .

1) это слово словарное

2) это слово несловарное

Словарный случай решается с помощью генерации (скажем на момент сборки библиотеки всех словоформ) Для испелла это примерно миллион записей - сущие пустяки, можно и нужно грузить в память. В процессе генерации мы считаем статистику изменения окончаний при преобразования исходной формы в разные падежные ("спрягательные") формы. Для длинных слов берем статистику по последним пяти буквам, для слов покороче по трем или четырем. Что считать коротким, длинным и очень длинным слово нужно определять эмпирически или экспериментально. Пусть у нас (хотя в жизни может быть немного по-другому) получилось, что для окончания рнета наиболее вероятная исходная форма получается заменой окончания на рнет.

Таким образом для несловарного слова ИНТЕРНЕТА мы получаем, что наиболее вероятная исходная форма ИНТЕРНЕТ. Для больше достоверности можно брать две наиболее вероятные исходные формы.

Теперь важный момент: наряду со статистикой преобразования от конечной формы к исходной мы считаем и статистику правил генерации конечных форм из исходных. Таким образом, в приведенном выше примере для несловарного слова ИНТЕРНЕТА мы сможет не только выбрать базовую форму, но и сгенерировать другие формы, как то ИНТЕРНЕТУ, ИНТЕРНЕТОМ, и т.д и т.п.

Конечно, данный алгоритм будет делать иногда ошибки. У какого-то монстра, вроде даже у Яндекса, одно время английское слово dos считается производной формой от глагола do :-)

antono:
Спасибо всем ответившим. itman, я больше половины не понимаю что вы говорите :)
Хочу пока собрать базу окончаний и с ними попробовать поэкспериментировать. Нет уже готовых таких подборок? А то я искал список стоп-слов, набралось около 500.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Дзен реализовал для авторов возможность вывода денег через СПБ

Зачем быть уникальным в мире, где все можно скопировать