Q: что принято считать "словоформой"?

12
!Иван FXS
На сайте с 16.11.2001
Offline
119
#11
Как писал Vyacheslav Tikhonov

Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.

- перечитал еще раз ... возникли вопросы:

1. получается, что не всякая словоформа является лексемой ... Или Вы просто забыли добавить в определении ЛЕКСЕМЫ "иногда с дефисом"?

2. а как быть с нижним прочерком ("_")? Не целесообразно ли включить его в состав символов, образующих ЛЕКСЕМУ?

И еще вопрос - про "обычные" методы определения порядкового номера сло ... лексемы в "текстовом потоке":

предположим, мы анализируем такой "текст":

Мама ## № мыла11 "раму".

- сколько в нем - всего - лексем?

- какие "номер по счету" имеют в нем лексемы [мыла11] и [раму]?

MG
На сайте с 18.10.2002
Offline
27
#12

У всех разработчиков поисковиков несколько свой подход. Возможны два крайних варианта и остальные его промежуточные:

1. каждая позиция в документе может содержать несколько лексем и их комбинаций. Смотрите описание интерфейса IWordBreaker из MS IndexEngine. В этом случае мыла11 можно представить как {мыла11, мыла, 11}

2. бить на как можно меньшие лексемы, а всякие соединенные варианты получаются с использованием координатной информации. За примерами сходите в yahoo и поищите какой-нибудь номер с точками и тире. Другое дело в оригинале может быть мыло/11, а найдется мыло.11.

Какие символы отнести к словам - отдельная беда. Когда появился C# некоторые поисковики не могли искать по #, что приводило к проблемам.

Из личного опыта - введение "лишних" символов может заметно увеличивать словарь и приводить к недоразумениям при поиске обычных слов, но очень помогает, если пользователи часто ищут номера и коды.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий