Размер словаря

AA
На сайте с 16.04.2001
Offline
70
#111

Может, я и путаю, но насколько я понял, в первых постах шла речь о морфоизменениях (полных лексемах). Это умещается и в 300К, как я сказал.

Дополнительные 50К нужны на морфоинформацию (часть речи, число, падеж, спряжение и т.д.).

С уважением, Антонов Александр.
I
На сайте с 26.05.2001
Offline
64
#112
AlexA:
Может, я и путаю, но насколько я понял, в первых постах шла речь о морфоизменениях (полных лексемах). Это умещается и в 300К, как я сказал.
Дополнительные 50К нужны на морфоинформацию (часть речи, число, падеж, спряжение и т.д.).

Просто, наверное, правила раскрутки префиксов-суффиксов уже практически всю морфологическую информацию содержат, потому как, например, ать -> ал, ать -> аю только глаголам (и еще кажется деепричастиям применимы) то бишь, чтобы отличать одно от другого еще один битик нужен. Если так, то мы просто говорим об одном и том же, но разными словами.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
AA
На сайте с 16.04.2001
Offline
70
#113

Не совсем так:

"правила раскрутки" - это и есть морфоизменения, но не морфоинформация. У нас это самое "практически" превратить задаром в полную информацию о данной словоформе, и о ее лексеме не получилось. Вот и потребовались эти 50К. Но, может, еще более дешевое решение и существует.

I
На сайте с 26.05.2001
Offline
64
#114

Ну тогда у меня есть сомнения, потому как информация о морфоизменениях + указатели (как миниум один на каждое слово) дают 100 кб прибавочной массы, оставляя 200 кб на хранение одно текста. Вот я сейчас пойду в разные конференции по сжатию данных и спрошу людей, знают ли они хоть один алгоритм сжатия слабокоррелирующего текста (то есть общие основы уже выделены и даже приставки может быть отрезаны) размером 1 мб в 200 кб :-) Посмотрим, что они скажут.

AA
На сайте с 16.04.2001
Offline
70
#115

Ну вот Вы уже и засомневались. Вроде, практически все, что помню, Вам рассказал. Повторяться уж не буду. Единственно, что не забывайте, что это не абстрактная информация в 1Мб, а именно русский язык.

I
На сайте с 26.05.2001
Offline
64
#116

она не абстрактная, однако есть подзрение, что повторяемость внутри словаря, или другими словами энтропия, не слишком велика. какой-нибудь gzip сжимает такие данные максимум в три раза. к тому же, я подозреваю, что пойнтеры могут занимать даже больше места, чем я описал, а необходимость выравнивать битовые последовательности по границе байтов, когда мы приходим в разветвляющийся узел вносит дополнительные накладные расходы. какие точно? я не знаю. а, вообще, это увлекательная тема. я не видел пока еще ни одного серьезного исследования, посвященному именно словарному сжатию.

AlexA:
Ну вот Вы уже и засомневались. Вроде, практически все, что помню, Вам рассказал. Повторяться уж не буду. Единственно, что не забывайте, что это не абстрактная информация в 1Мб, а именно русский язык.
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#117

Зодчий, прекратите паясничать. Если еще раз в личке будут шутки с itman, можете серьезно пострадаете. // Модератор

/ru/forum/comment/1105544

будьте добры поясните пожалуйста уважаемый модератор в чем именно я паясничал и в чем были шутки? не нашел к сожалению контактной информации чтобы задать вопрос персонально вам, если не сложно после прочтения удалите этот пост

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".
I
На сайте с 26.05.2001
Offline
64
#118

Уважаемый Модератор, меня поняли превртано. Я имел в виду, что Зодчий, как раз был второй жертвой хулиганства со стороны (я написал предположительно кого). Может это и не хулиганство, а все-таки баг? Можно же ведь это проверить по логам, кто заниматеся таким недостойным дело?

ЗодчийТеней:
Зодчий, прекратите паясничать. Если еще раз в личке будут шутки с itman, можете серьезно пострадаете. // Модератор
/ru/forum/comment/1105544
будьте добры поясните пожалуйста уважаемый модератор в чем именно я паясничал и в чем были шутки? не нашел к сожалению контактной информации чтобы задать вопрос персонально вам, если не сложно после прочтения удалите этот пост

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий