Q: общепризнаный стандарт хранения словарей?

!Иван FXS
На сайте с 16.11.2001
Offline
119
1246

Есть ли какой-либо более менее широко признанный формат хранения словарных списков - достаточно компактный и достаточно эффективный?

То есть - как решается задача использования и хранения функциональной связи (туда и обратно!) между рядом натуральных чисел и алфавитно упорядоченным набором ... ммм ... лексических единиц?

Типа того, что можно изобразить таблицей:

id Word

1 аа

2 ААА

3 ааааа

4 Аал

5 АБ

6 Аба

7 Абабково

8 Абабурово

9 Абага

10 Абагайтуй

11 Абагур

12 Абагурской

13 Абагурт

14 Абадзехская

15 Абаевский

16 абажур

17 абажура

18 абажурам

19 абажурами

20 абажурах

21 абажуре

22 абажуров

23 абажуром

24 абажуру

... ...

VT
На сайте с 27.01.2001
Offline
130
#1
То есть - как решается задача использования и хранения функциональной связи (туда и обратно!) между рядом натуральных чисел и алфавитно упорядоченным набором ... ммм ... лексических единиц?

Морфологический анализатор имени Коваленко.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#2

- на данном этапе мне нужно что-то более формальное: отслеживать "родство" между

в-обр-ать

и

в-бер-у

- мне не нужно.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#3

На пересечении этой темы и Q: что принято считать "словоформой"? :

знает ли кто-нибудь что-нибудь о таких ПОСТАНОВКАХ ЗАДАЧИ - составить как можно более полный список (как бы - словарь) словоформ, встречающихся в предельно широком (русскоязычном) контенте?

Мне кажется, что - на уровне здравого смысла - формулировка достаточно понятная. Черт, как всегда, - в деталях.

lagif
На сайте с 15.12.2004
Offline
30
#4

Кстати, поверхностно: простая схема "слово-id"- не учитывает словоформ.

Посмотрите, и правда, как построен словаь у Андрея Коваленко (кстати, почему "имени Коваленко"?). У Коваленко есть демо-версия. Посмотрите. Потестите.

Это тоже пройдет...
!Иван FXS
На сайте с 16.11.2001
Offline
119
#5

Я понимаю, что это два РАЗНЫХ подхода:

1. поддерживать словарь ПАРАДИГМ (то бишь - СЛОВ) и ГЕНЕРИРОВАТЬ слофовормы

2. поддерживать словарь СЛОВОФОРМ, а с парадигмами - РАЗБИРАТЬСЯ на этапе анализа.

- каждый- имеет свои плюсы и минусы.

Я обсуждаю второй путь ...

lagif
На сайте с 15.12.2004
Offline
30
#6

!Иван FXS,

второй путь представляется мне более ресурсоемким. а вообще, я как новичок в этой области, советовать ничего не берусь.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий