Как учитывать словоформы?

1

Des

17 декабря 2003, 03:24

2116

Нужно определить релевантность документа запросу. По принципу "соответствует/не соответствует". У каждого документа имеется список ключевых слов и определение соответствия документа запросу должно основываться только на анализе этого списка (он уже заранее задан). Запрос представляет из себя одно или несколько слов. Документ считается релевантным запросу, если не менее половины слов или их словоформ запроса присутствуют в списке ключевых. Основная сложность - как определить, является ли слово словоформой другого? Алгоритм не обязательно должен быть точным (т.е. допускаются ложные распознавания/нераспознования), но должен быть простым и не использовать словарь или его заменители, т.к. должен уметь обрабатывать и всякую кракозябрицу и понимать что

бокренок - словоформа бокра.

But never relax at all With our backs to the wall.

519

greenwood

17 декабря 2003, 08:18

#1

должен уметь обрабатывать и всякую кракозябрицу и понимать что
бокренок - словоформа бокра.

Боюсь,что на сегодня вряд-ли Вы найдете программу с такой функцией.

Мне пока такую проблему не удалось решить,а хотелось-бы

должно основываться только на анализе этого списка (он уже заранее задан).

Это реализовано в программе PagePromoter

Документ считается релевантным запросу, если не менее половины слов или их словоформ запроса присутствуют в списке ключевых.

Вот это не совсем понятно... половина чего и от чего ?

Снова о GDPR и Яндекс кобласит Тревожно насчет fozzy.ru

AA

70

AlexA

19 декабря 2003, 09:06

#2

Алгоритм не обязательно должен быть точным...должен быть простым и не использовать словарь или его заменители, т.к. должен уметь обрабатывать и всякую кракозябрицу и понимать что бокренок - словоформа бокра.

Иначе говоря, нужно определять словоизменение и словообразование, при этом не используя словаря. Вероятно, словари суффиксов-приставок-окончаний также использовать нельзя. Тогда задача в данной постановке сводится к пустяку: написать алгоритм преобразования слов естественного языка. Тогда ключевым словом становится - "не обязательно точный". В этом случае годится практически любой алгоритм сравнения по буквам, например, сравнивающий последовательность N букв в слове (n-граммы). В случае n=4 этот алгоритм прекрасно сведет бокра и бокренка. Формально все в порядке, конечно, если не обращать внимания на вероятность ошибок :)

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

19 декабря 2003, 14:30

#3

Алгоритм не обязательно должен быть точным (т.е. допускаются ложные распознавания/нераспознования), но должен быть простым и не использовать словарь или его заменители, т.к. должен уметь обрабатывать и всякую кракозябрицу и понимать что
бокренок - словоформа бокра.

Без словаря можно использовать только стемминг - то есть описать все классы разрешенных суффиксов/окончаний. Почему он не подходит, если допускаются ложные распознавания?

AA

70

AlexA

20 декабря 2003, 08:49

#4

Почему он не подходит, если допускаются ложные распознавания?

Насколько я понял, из-за "кракозябрицы". Хотя распознать во многих случаях неправильной кодировку - задача решенная, и довольно давно, если правильно помню, то самим Марковым (вероятности дву- и триграмм). Однако, может, у Des, были дополнительные соображения.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

9 января 2004, 14:28

#5

(Не в целях рекламы) Мммм а как на счет вероятностного стэммера А. Коваленко?

VC

5

vadim_crow

4 марта 2004, 10:42

#6

Насколько я понимаю, речь идет о бессловарном морфологическом анализе.

Наш модуль морфологии вроде бы такие проблемы решал.

http://www.rco.ru

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов