Где найти таблицы к Зализняковскому словарю?

G
На сайте с 11.02.2002
Offline
23
2891

Может знает кто, где найти таблица с морфологией к словарю Зализняка. Сам словарь есть.

Ashmanov
На сайте с 21.11.2000
Offline
66
#1

Известно где - во вступительной статье к словарю. Там дан полный и точный алгоритм словоизменения и анализа. Это был бы не великий словарь Зализняка, если там бы этого не было.

Читайте. Остаётся запрограммировать.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
K
На сайте с 27.11.2000
Offline
80
#2
... Остаётся запрограммировать.

Задача благородная, решенная уже не одним человеком, и достаточно трудоемкая. Если до сих пор не решали эту задачу, создание анализатора займет около человекогода. Если решали - за несколько месяцев можно справиться :)

С уважением, Андрей Коваленко aka Keva
DE
На сайте с 05.04.2002
Offline
5
#3

прога называется Арианда:

http://www.artint.ru/packin/abrial/download.htm

B
На сайте с 02.09.2002
Offline
42
bvd
#4
Как писал Dmitry Ermolaev
прога называется Арианда:
http://www.artint.ru/packin/abrial/download.htm

Следует понимать, что одного словаря Зализняка для

хорошей программы морфологического анализа недостаточно.

<p>

Необходимо 3 части:

<p>

<ol>

<li> морфологический словарь.

<p> Словарь Зализняка весьма устарел,

кроме того некоторые вещи в нем не очень хороши для

автоматической обработки. Например, формы прилагательного

ФИНАНСОВ, БЮДЖЕТОВ, ШКАФОВ. Все правильно, но в информационном

поиске плохо.

<p> Есть и несколько проблем концептуального плана:

краткие формы прилагательного, слова с дефисами

<p> Большинство программ со словарной морфологией используют

"клоны" словаря Зализняка собственной выделки. Сначала

сокращают количество статей тысяч на 20-30 .

Затем тысяч на 50 увеличивают.

<p> Кроме того, язык постоянно растет, появляются новые слова.

Нужна система пополнения словаря.

<p>

<li> программа быстрого доступа к словарю<p>

<li> обработка неизвестных словарю слов

<p> Реальные словари имеют 100-200 тысяч словарных статей.

Пусть это покрывает более чем 99.7% (реальные цифры)

известных ВХОЖДЕНИЙ словоформ. Считая средний документ

размером в 400-500 словоупотреблений, получаем, что,

для коллекции в 10,000 документов у Вас 10,000 неизвестных слов,

для коллекции в 100,000 документов у Вас 100,000 неизвестных слов.

<p> Это и ошибки, и специально коверкуемые авторами слова (передача

иностранной речи), и имена собственные (в БОЛЬШОМ количестве)

<p> Есть несколько подходов:

<ul>

<li> генерация гипотез, сравнивая с похожими словами,

то есть используя "сложные модели";

<li> отсечение приставок (АВТО-, МОТО-), суффиксов (-ДЗЕ, -ШВИЛИ) и т.п.

("простые модели")

<li> пользовательский словарь, с приближенным описанием морфологической

информации

</ul>

</ol>

<p>

Реальность состоит в том, что хорошую программу морфологического анализа

делают только "команды", причем с участем лингвистов.

<p>

Да, морфологический разбор - это пол-дела, для поисковых систем надо

еще адекватно подсвечивать результаты (обратная задача), фрагментировать текст

и т.п.

<p>

Если нужна морфология:

<ul>

<li> есть деньги - лучше купить у кого-нибудь существующую

- дешевле выйдет. Только берите с сопровождением

<li> нет - не стоит тратить много времени - делайте самую простую,

но не надейтесь "побить" существующие.

<p> Рекомендую самую простую - отсекайте с конца слова несколько букв,

в зависимости от длины - дешево и сердито.

</ul>

<p>

Всего хорошего,

<p>

Б.Добров

IV
На сайте с 03.04.2003
Offline
36
#5
Мое почтение, Илья Винокуров.
G
На сайте с 11.02.2002
Offline
23
#6

Зализняк все таки устарел... Вот года два назад, когда не было русских леммитайзеров...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий