Сколько слов в русском языке?

K
На сайте с 22.04.2003
Offline
31
Ken
5195

Добрый день!

Сколько слов(лемм, графически разных) в русском языке? Каков примерный объем, какова разрядность (бит) индесов у существующих систем?

BUFO
На сайте с 15.06.2003
Offline
224
#1

Какая рыба в океане плавает быстрее всех... Абсурд какой-то...

K
На сайте с 22.04.2003
Offline
31
Ken
#2

Почему?

Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.

BUFO
На сайте с 15.06.2003
Offline
224
#3

Ламер, признаю, умею признавать свои ошибки ;)

VT
На сайте с 27.01.2001
Offline
130
#4
Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.

А зачем охватывать все леммы? Достаточно взять 100-130 тысяч наиболее распространенных. Насколько я могу судить, все так и делают.

Какая рыба в океане плавает быстрее всех... Абсурд какой-то...

BUFO, устное замечание. Для подобных высказываний есть курилка.

BUFO
На сайте с 15.06.2003
Offline
224
#5

А сколько слов в русском языке?

BUFO
На сайте с 15.06.2003
Offline
224
#6

В русском языке около 500 тыс.слов. Но наиболее употребительных слов всего от 2000 до 2500. Даже у Пушкина, великого знатока и мастера русского языка, в литературной речи были не все полмиллиона слов, а всего 21197. Ученые обнаружили, что 100 наиболее часто встречающихся слов составляют 20% устной и письменной речи. 1500-2000 слов - это уже 85%. У выпускника средней школы словарный запас составляет от 1500 до 4000 слов. У человека с высшим образованием - до 8000 слов.

K
На сайте с 22.04.2003
Offline
31
Ken
#7

Я, наверное, задал вопрос не совсем корректно, вопрос касается поисковых технологий и индексации текстов, попробую пояснить - необходимо для каждого входного слова поставить в соответствие некий идентификатор(число) который бы однозначно характиризовал это слово, в связи с этим возникает вопрос с каким объемом русских лемм сталкиваются/работают существующие поисковые системы. Какую размерность индекса используют. Спасибо.

А
На сайте с 17.02.2004
Offline
2
#8

Всё равно не понятно. То ли Вы спрашиваете, во сколько бит можно упаковать каждое слово, то ли подразумеваете, что индекс устроен по принципу реляционной БД... Ведь слова - это мизерная часть индекса.

И причём тут русский язык? Вы думаете, существуют поисковики, индексирующие только слова русского языка?

Что ж вы ботик потопили...
K
На сайте с 22.04.2003
Offline
31
Ken
#9

Приношу свои извинения, за вопрос...

Наверное, я не совсем хорошо понимаю методов индексации.

Спасибо

I
На сайте с 15.12.2000
Offline
80
#10
Как писал Ken
Добрый день! Сколько слов в русском языке?

Если слово "Кен" и слово "Яндекс" - считать словами (а что же это еще?), и их язык считать русским (а какой, если не руский?), то думаю, что примерно пропорционально числу русских людей, скажем, миллионов 100-200-500. Примерно ~ закон Хипса (еще одно русское слово, кстати), только документом следует считать человека. Хотя кажется этот вопрос никто никогда не исследовал. :)

Что касается числа бит, то 64 бит (если пользоваться контрольной суммой) должно хватить на все, включая опечатки.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий