Форум Практика оптимизации Поисковые технологии

Q: что принято считать "словоформой"?

!Иван FXS · 2004-09-23T08:50:17.0000000Z

Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как "словоформы"? Я представляю себе такое "радикальное решение": считаем словоформами 1. непрерывные последовательности из букв 2. пробел 3. знаки препинания 4. все непрерывные последовательности символов, заключенные МЕЖДУ перечисленными тремя типами "словоформам" ... - но оно, наверное, не является ... наилучшим?

119

!Иван FXS

11 октября 2004, 14:20

#11

Как писал Vyacheslav Tikhonov

Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.

- перечитал еще раз ... возникли вопросы:

1. получается, что не всякая словоформа является лексемой ... Или Вы просто забыли добавить в определении ЛЕКСЕМЫ "иногда с дефисом"?

2. а как быть с нижним прочерком ("_")? Не целесообразно ли включить его в состав символов, образующих ЛЕКСЕМУ?

И еще вопрос - про "обычные" методы определения порядкового номера сло ... лексемы в "текстовом потоке":

предположим, мы анализируем такой "текст":

Мама ## № мыла11 "раму".

- сколько в нем - всего - лексем?

- какие "номер по счету" имеют в нем лексемы [мыла11] и [раму]?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MaxGubin

11 октября 2004, 17:01

#12

У всех разработчиков поисковиков несколько свой подход. Возможны два крайних варианта и остальные его промежуточные:

1. каждая позиция в документе может содержать несколько лексем и их комбинаций. Смотрите описание интерфейса IWordBreaker из MS IndexEngine. В этом случае мыла11 можно представить как {мыла11, мыла, 11}

2. бить на как можно меньшие лексемы, а всякие соединенные варианты получаются с использованием координатной информации. За примерами сходите в yahoo и поищите какой-нибудь номер с точками и тире. Другое дело в оригинале может быть мыло/11, а найдется мыло.11.

Какие символы отнести к словам - отдельная беда. Когда появился C# некоторые поисковики не могли искать по #, что приводило к проблемам.

Из личного опыта - введение "лишних" символов может заметно увеличивать словарь и приводить к недоразумениям при поиске обычных слов, но очень помогает, если пользователи часто ищут номера и коды.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard

Q: что принято считать "словоформой"?