Вам надо получить проценты покрытия своих текстов - Поисковые технологии

Тестирование словаря

Ken · 2003-09-25T08:51:02.0000000Z

Добрый день. Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик? Где-нибудь можно протестировать "разворот" словаря Зализняка?

P

3

Pavelkq

7 января 2004, 08:39

#11

Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?

B

42

bvd

7 января 2004, 12:01

#12

Как писал Pavelkq
Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?

Лучше всего купить, причем с сопровождением.

K

31

Ken

8 января 2004, 08:21

#13

Где можно купить? Те, что я встречал стоят не одну тысячу долларов - для студента деньги большие, да и проект у меняя изначально бесплатный.

P

3

Pavelkq

8 января 2004, 08:41

#14

И ты проект делаешь на подобную тему? А что конкретно, можно узнать? Может приватно поделимся?

Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.

B

42

bvd

8 января 2004, 09:50

#15

Как писал Pavelkq
Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.

Если проект некоммерческий и Вы можете гарантировать

некоммерческое использование программ/словарей,

то многие могут дать Вам все бесплатно.

Если же не можете гарантировать - тогда за хорошее надо платить

и платить дорого.

K

31

Ken

12 января 2004, 09:11

#16

2 bvd,

А можно ли просто сравнить мой словарь с вашим?

По принципу: парадигма на парадигму? И Вам проверка и мне.

B

42

bvd

12 января 2004, 09:46

#17

Как писал Ken
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.

Да без проблем, только я не очень понимаю как и зачем.

Как:

пришлете мне свой список - я Вам скажу сколько процентов пересечения? (В общем, чтобы за 10-20 минут сделать).

Зачем:

наша морфология заточена на обеспечение обработки текста

(терминология, рубрикация). Основное требование - чтобы

среди порожденных вариантов лемм для незнакомых словоформ

БЫЛ ПРАВИЛЬНЫЙ (*).

Кроме того при словаре в 130 тыс. лемм (при необходимости,

со специальной оболочкой может расти со скоростью/себестоимостью

1000 лемм/неделя/USD40) имеется комплект примочек на приставки,

суффиксы, пользовательский словарь и т.п. (плюс встроенные

модели разных фамилий) - чтобы урезать порождаемый список лемм.

По-моим, возможно неточным, оценкам на российских текстах типа деловой прозы работает правильно (в смысле *) где-то для 99,7-99,9 процентов словоупотреблений. Мне хватает,

при этом без примочек было бы процентов 97.

Для других целей (например, для проверки орфографии) и морфология должна быть своя. То есть можно применять и эту, но результаты будут хуже - надо подкручивать.

То есть имеет смысл сравнивать не словари, а результат работы

программ, например, как предложено И.Сегаловичем. Да и то,

смысла немного при разбросе 97-99% от словоупотреблений.

Да, кстати - откуда цифра 130 тыс. Если мне не изменяет память,

сначала урезали и почистили Зализняка до 70 тыс., затем

набрали для обеспечения покрытия наших текстов и используемых ресурсов.

Еще, кстати, имеется несколько известных дыр,

(не знаю, от кого они идут, может от Зализняка)

но смысла их исправлять пока нет - и так работает.

Есть и несколько проблем - тот же диагноз.

То есть еще более правильно - Вам надо получить проценты покрытия своих текстов (и если захотите, то и точности). А словари сами по себе - зачем?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

12 января 2004, 11:33

#18

Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

12 января 2004, 13:07

#19

Как писал Ken
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

Ну тогда это не ко мне. Чистку делали, но это не была критичная задача.

Кроме того, при чистке полезли проблемы, самой существенной мне кажется проблема краткой формы прилагательных ("русско-итальянский"), а также близких к ним наречий ("по-русски"). Плюс причастия с не- .

Как писал Ken
Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

Если Вас устроит - можно переслать (bvd@mail.ru) мне список сгенеренных словоформ, а я в ответ файл обработки.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

12 января 2004, 13:14

#20

Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, чтобы попасть в ответы Google Bard

Тестирование словаря