Как работает анализ морфологии по словарю?

C
На сайте с 28.08.2007
Offline
68
2147

Интересует из чего состоит словарь для такого анализа? Какая у него структура?

Там ведь не хранятся все словоформы? Если в словарь помещать только основу слова, тогда как быть с такими случаями как: ребенок, дети?

ClickFrog.ru - система защиты от скликивания контекстной рекламы (http://clickfrog.ru/?page=registration&referrer_id=708)
feelfree
На сайте с 12.07.2008
Offline
67
#1
catprog:
ребенок, дети?

это синонимы. причем тут морфология?

даю 10% от оплаченного заказа *** тематика детские товары *** пишите в личку
C
На сайте с 28.08.2007
Offline
68
#2
feelfree:
это синонимы. причем тут морфология?

Какие ж это синонимы? По-моему слово "дети" множественное число слова "ребенок", но если этот пример не подходит тогда можно такой: "человек" - "люди".

W
На сайте с 23.09.2004
Offline
40
#3
catprog:
Какие ж это синонимы? По-моему слово "дети" множественное число слова "ребенок", но если этот пример не подходит тогда можно такой: "человек" - "люди".

Морфологии бывают разные, в том числе стемминговые (стол*) и вероятностные (черный ящик по контексту).

Классический подход к словарю для автоматического морфологического анализа - словарь Зализняка.

Посмотрите также статьи Белоногова в НТИ, сайт Андрея Коваленко.

Насчет "дети" - в русской морфологии есть кучка сложных случаев, которые могут решаться по разному в зависимости от задачи.

Помните, что к любой красивой модели можно добавить списки исключений - как слов, так и кусков других моделей.

Другие вспомнившиеся мне сейчас проблемы русской и не только морфологии, которые могут решаться по-разному, в зависимости от задачи - делается ли "синтаксический анализ", разбор запроса или подсветка результатов:

- дефисные слова: "Камень-на-Оби", "Париж-Даккар" - сколько слов + всех возможных сочетаний словаре не перечислишь

- краткие формы прилагательных: "русско-африканский" - что такое "русско" и сколько слов

- наречия: "по-русски" - оставлять или сводить к прилагательному

- причастия и деепричастия - сводить к глаголу или оставить отдельной формой

- что делать с мертвыми формами - прилагательное "бюджетов"

- совпадение собственных имен с обычными словами (например, в начале предложения): "Сапогов"

и т.д.

Основная проблема - как разбирать неописанное в словаре слово.

C
На сайте с 28.08.2007
Offline
68
#4

walker, спасибо посмотрю в этом направлении. А о каком сайте Андрея Коваленко идет речь, не могу найти, кстати знаком с одним Андреем Коваленко :)

На сколько я понял, словарь представляет совой набор правил и списков исключений, что ж почитаю пока про методики которые Вы указали.

До построения гипотез для неописаных в словаре слов мне пока еще далеко, мне со словарной морфологией разобратся ;-)

zhidronsss
На сайте с 12.10.2007
Offline
36
#6

смотрите еще http://scon155.phys.msu.su/eng/lebedev.html (ispell)

для себя делал по Лебедеву (если кому надо обращайтесь) все словоформы словаря похожего на Зализняка

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий