Q: что принято считать "словоформой"?

12
!Иван FXS
На сайте с 16.11.2001
Offline
119
1946

Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как "словоформы"?

Я представляю себе такое "радикальное решение":

считаем словоформами

1. непрерывные последовательности из букв

2. пробел

3. знаки препинания

4. все непрерывные последовательности символов, заключенные МЕЖДУ перечисленными тремя типами "словоформам" ...

- но оно, наверное, не является ... наилучшим?

VT
На сайте с 27.01.2001
Offline
130
#1
короткие строки", понимаемые в дальнейшем как "словоформы"?

Словоформы - различные грамматические формы одного и того же слова - "непрерывные последовательности из букв, иногда с дефисом". :) Все словоформы составляют парадигму.

Подробнее смотреть здесь.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#2

дык! Вроде бы SE комбинации из букв и цифр тоже индексируют:

Результат поиска: страниц — 256, сайтов — не менее 92

VT
На сайте с 27.01.2001
Offline
130
#3
дык! Вроде бы SE комбинации из букв и цифр тоже индексируют

Так это уже называется лексема, а не словоформа.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#4

Ок, спасибо за науку.

Но, надеюсь, Вы увидели РАСШИФРОВКУ вопроса:

Как писал !Иван FXS
Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как ...

"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?

VT
На сайте с 27.01.2001
Offline
130
#5
"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?

Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#6

Правильно ли я понял, что Вы считаете целесообразным считать ЛЕКСЕМОЙ:

1. Непрерывную последовательность из - вперемешку- букв (русских и "иностранных"), цифр и дефиса (во всех его ипостасях?)

2. Каждую непрерывную последовательность символов, заключенную МЕЖДУ лексемами, описанными в п.1

?

То есть фраза "Исп. обяз. директора" состоит из пяти лексем:

"Исп"

"обяз"

"директора"

и ". " дважды

?

VT
На сайте с 27.01.2001
Offline
130
#7
То есть фраза "Исп. обяз. директора" состоит из пяти лексем:
"Исп"
"обяз"
"директора"
и ". " дважды
?

Из трех :) Все остальное - разделители.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#8
Как писал Vyacheslav Tikhonov

Из трех :) Все остальное - разделители.

- то есть от индексации "мусора" Вы гордо отказываетесь?

Является ли это общепринятой практикой у SE?

И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?

VT
На сайте с 27.01.2001
Offline
130
#9
- то есть от индексации "мусора" Вы гордо отказываетесь?
Является ли это общепринятой практикой у SE?

Да. У любой поисковой системы есть лексикон, хранящий основы или нормальную форму слов. Первым делом поиск проводится в нем. Читайте классиков.

И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?

Осмысленность? Чего-чего, а этого ну никак нельзя сказать ни об одном из практически реализованных алгоритмов поиска. :)

!Иван FXS
На сайте с 16.11.2001
Offline
119
#10
Как писал Vyacheslav Tikhonov

Читайте классиков.

- как только я слышу "page rank", моя рука тянется к пистолету (шутка).

Осмысленность? Чего-чего, а этого ну никак нельзя сказать ни об одном из практически реализованных алгоритмов поиска.

- вряд ли это - аргумент ...

Я настаиваю, что в "Исп. обяз." точки игают очень важную ЛИНГВИСТИЧЕСКУЮ роль и ... имеют очень большую "потребительскую ценность"!

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий