Тестирование словаря

123
P
На сайте с 07.01.2004
Offline
3
#11

Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?

B
На сайте с 02.09.2002
Offline
42
bvd
#12
Как писал Pavelkq
Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?

Лучше всего купить, причем с сопровождением.

K
На сайте с 22.04.2003
Offline
31
Ken
#13

Где можно купить? Те, что я встречал стоят не одну тысячу долларов - для студента деньги большие, да и проект у меняя изначально бесплатный.

P
На сайте с 07.01.2004
Offline
3
#14

И ты проект делаешь на подобную тему? А что конкретно, можно узнать? Может приватно поделимся?

Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.

B
На сайте с 02.09.2002
Offline
42
bvd
#15
Как писал Pavelkq
Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.

Если проект некоммерческий и Вы можете гарантировать

некоммерческое использование программ/словарей,

то многие могут дать Вам все бесплатно.

Если же не можете гарантировать - тогда за хорошее надо платить

и платить дорого.

K
На сайте с 22.04.2003
Offline
31
Ken
#16

2 bvd,

А можно ли просто сравнить мой словарь с вашим?

По принципу: парадигма на парадигму? И Вам проверка и мне.

B
На сайте с 02.09.2002
Offline
42
bvd
#17
Как писал Ken
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.

Да без проблем, только я не очень понимаю как и зачем.

Как:

пришлете мне свой список - я Вам скажу сколько процентов пересечения? (В общем, чтобы за 10-20 минут сделать).

Зачем:

наша морфология заточена на обеспечение обработки текста

(терминология, рубрикация). Основное требование - чтобы

среди порожденных вариантов лемм для незнакомых словоформ

БЫЛ ПРАВИЛЬНЫЙ (*).

Кроме того при словаре в 130 тыс. лемм (при необходимости,

со специальной оболочкой может расти со скоростью/себестоимостью

1000 лемм/неделя/USD40) имеется комплект примочек на приставки,

суффиксы, пользовательский словарь и т.п. (плюс встроенные

модели разных фамилий) - чтобы урезать порождаемый список лемм.

По-моим, возможно неточным, оценкам на российских текстах типа деловой прозы работает правильно (в смысле *) где-то для 99,7-99,9 процентов словоупотреблений. Мне хватает,

при этом без примочек было бы процентов 97.

Для других целей (например, для проверки орфографии) и морфология должна быть своя. То есть можно применять и эту, но результаты будут хуже - надо подкручивать.

То есть имеет смысл сравнивать не словари, а результат работы

программ, например, как предложено И.Сегаловичем. Да и то,

смысла немного при разбросе 97-99% от словоупотреблений.

Да, кстати - откуда цифра 130 тыс. Если мне не изменяет память,

сначала урезали и почистили Зализняка до 70 тыс., затем

набрали для обеспечения покрытия наших текстов и используемых ресурсов.

Еще, кстати, имеется несколько известных дыр,

(не знаю, от кого они идут, может от Зализняка)

но смысла их исправлять пока нет - и так работает.

Есть и несколько проблем - тот же диагноз.

То есть еще более правильно - Вам надо получить проценты покрытия своих текстов (и если захотите, то и точности). А словари сами по себе - зачем?

K
На сайте с 22.04.2003
Offline
31
Ken
#18

Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

B
На сайте с 02.09.2002
Offline
42
bvd
#19
Как писал Ken
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

Ну тогда это не ко мне. Чистку делали, но это не была критичная задача.

Кроме того, при чистке полезли проблемы, самой существенной мне кажется проблема краткой формы прилагательных ("русско-итальянский"), а также близких к ним наречий ("по-русски"). Плюс причастия с не- .

Как писал Ken
Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

Если Вас устроит - можно переслать (bvd@mail.ru) мне список сгенеренных словоформ, а я в ответ файл обработки.

VT
На сайте с 27.01.2001
Offline
130
#20
Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий