Q: что принято считать "словоформой"?

119

!Иван FXS

23 сентября 2004, 08:50

1962

Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как "словоформы"?

Я представляю себе такое "радикальное решение":

считаем словоформами

1. непрерывные последовательности из букв

2. пробел

3. знаки препинания

4. все непрерывные последовательности символов, заключенные МЕЖДУ перечисленными тремя типами "словоформам" ...

- но оно, наверное, не является ... наилучшим?

VT

130

Vyacheslav Tikhonov

28 сентября 2004, 10:45

#1

короткие строки", понимаемые в дальнейшем как "словоформы"?

Словоформы - различные грамматические формы одного и того же слова - "непрерывные последовательности из букв, иногда с дефисом". :) Все словоформы составляют парадигму.

Подробнее смотреть здесь.

119

!Иван FXS

28 сентября 2004, 12:43

#2

дык! Вроде бы SE комбинации из букв и цифр тоже индексируют:

Результат поиска: страниц — 256, сайтов — не менее 92

VT

130

Vyacheslav Tikhonov

28 сентября 2004, 12:47

#3

дык! Вроде бы SE комбинации из букв и цифр тоже индексируют

Так это уже называется лексема, а не словоформа.

119

!Иван FXS

28 сентября 2004, 13:04

#4

Ок, спасибо за науку.

Но, надеюсь, Вы увидели РАСШИФРОВКУ вопроса:

Как писал !Иван FXS
Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как ...

"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?

VT

130

Vyacheslav Tikhonov

28 сентября 2004, 13:31

#5

"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?

Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.

119

!Иван FXS

28 сентября 2004, 13:57

#6

Правильно ли я понял, что Вы считаете целесообразным считать ЛЕКСЕМОЙ:

1. Непрерывную последовательность из - вперемешку- букв (русских и "иностранных"), цифр и дефиса (во всех его ипостасях?)

2. Каждую непрерывную последовательность символов, заключенную МЕЖДУ лексемами, описанными в п.1

?

То есть фраза "Исп. обяз. директора" состоит из пяти лексем:

"Исп"

"обяз"

"директора"

и ". " дважды

?

VT

130

Vyacheslav Tikhonov

28 сентября 2004, 14:08

#7

То есть фраза "Исп. обяз. директора" состоит из пяти лексем:
"Исп"
"обяз"
"директора"
и ". " дважды
?

Из трех :) Все остальное - разделители.

119

!Иван FXS

28 сентября 2004, 14:52

#8

Как писал Vyacheslav Tikhonov

Из трех :) Все остальное - разделители.

- то есть от индексации "мусора" Вы гордо отказываетесь?

Является ли это общепринятой практикой у SE?

И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?

Как развивать сайт радио Вопрос по js, как А вы точно доктор?

VT

130

Vyacheslav Tikhonov

28 сентября 2004, 15:04

#9

- то есть от индексации "мусора" Вы гордо отказываетесь?
Является ли это общепринятой практикой у SE?

Да. У любой поисковой системы есть лексикон, хранящий основы или нормальную форму слов. Первым делом поиск проводится в нем. Читайте классиков.

И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?

Осмысленность? Чего-чего, а этого ну никак нельзя сказать ни об одном из практически реализованных алгоритмов поиска. :)

119

!Иван FXS

28 сентября 2004, 15:28

#10

Как писал Vyacheslav Tikhonov

Читайте классиков.

- как только я слышу "page rank", моя рука тянется к пистолету (шутка).

Осмысленность? Чего-чего, а этого ну никак нельзя сказать ни об одном из практически реализованных алгоритмов поиска.

- вряд ли это - аргумент ...

Я настаиваю, что в "Исп. обяз." точки игают очень важную ЛИНГВИСТИЧЕСКУЮ роль и ... имеют очень большую "потребительскую ценность"!

Санкции за ИИ контент Архитектура отказоустойчивого сервера Яндекс кобласит

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта