Тестирование словаря

12 3
K
На сайте с 22.04.2003
Offline
31
Ken
3354

Добрый день.

Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик?

Где-нибудь можно протестировать "разворот" словаря Зализняка?

B
На сайте с 02.09.2002
Offline
42
bvd
#1
Как писал Ken
Добрый день.
Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик?
Где-нибудь можно протестировать "разворот" словаря Зализняка?

День добрый!

Чтобы говорить о методике надо определиться с тем, что

понимается под ошибкой.

Дело в том, что и в русском "литературном" языке масса

спорных моментов, которые разные исследователи толкуют по

разному. Кроме того, язык развивается и постоянно изменяется.

Плюс для реальных задач можно пойти на некоторые упрощения.

В общем случае, проще всего взять корпус текстов побольше

(лучше авторитетный - то есть выверенный кем-то),

прокрутить, проанализировать неизвестные программе разбора слова.

Если словоформа написана без ошибок, лемма есть в словаре, но не найдена - неправильная парадигма.

"Избыточность" парадигмы (лишние словоформы для леммы) проверять сложнее, но это достаточно мало критично в задачах обработки текста

(если не требуется проверка орфографии). Формально можно предложить

прокрутить ОЧЕНЬ большой корпус текстов - чтобы там встречались ВСЕ

словоформы словаря. И посмотреть, что не было употреблено.

Но это утопия - нет больших выверенных корпусов, а пока их будут

создавать, они немножко устареют.

AA
На сайте с 16.04.2001
Offline
70
#2

Борис, приветствую.

Поясни, зачем нужен выверенный корпус?

Статистика д.б. достаточна на любом корпусе, естественно, большом (порядка сотни миллионов словомест и чем больше, тем лучше). Вероятность наложения устойчивых ошибок (типа агенство) на ошибки словаря достаточно мала, во всяком случае, объем здесь должен побить качество выверенного корпуса.

Я не говорю, конечно, за другие задачи текстового анализа, часто без качества не обойтись.

Мы гоняли "своего" Зализняка через невыверенные тексты и качеством вполне довольны. Правда, давно это было, альтернативы - хороших объемных корпусов и не было.

С уважением, Антонов Александр.
K
На сайте с 22.04.2003
Offline
31
Ken
#3

2AlexA

Ммм... словарь Зализняка позволяет получить не только существующие формы, но и потенциальные, к примеру ср.ст."абрикосовее", мн.ч."автомобилестроения" и т.п. Считать ли такие формы - "правильными"? Думаю - да.

Более того "выверенные" корпуса текстов не дают грамматической, а уж тем более и фонетической информации.

Может быть сравним словари на предмет ошибок?

B
На сайте с 02.09.2002
Offline
42
bvd
#4
Как писал AlexA
Борис, приветствую.
Поясни, зачем нужен выверенный корпус?

Добрый день, Александр!

IMHO для задач информационного поиска (индексирования, расширения запроса и подсветки) требуется своя морфология

(например, полезно соединять "итало", "итальяно", "(по-)итальянски",

"итальянский"; но, возможно, разделять глаголы и причастия),

для других задач своя.

Выверенный по какому-то основанию корпус - это неявное задание

правил того "русского языка", с которым приходится иметь дело.

А так я попробовал дать формальный ответ на формальный вопрос.

Как писал Ken
Ммм... словарь Зализняка позволяет получить не только существующие формы, но и потенциальные, к примеру ср.ст."абрикосовее", мн.ч."автомобилестроения" и т.п. Считать ли такие формы - "правильными"? Думаю - да.

По-моему (могу ошибиться с точностью цитаты), также "бюджетов"

от "бюджетный", "шкафов" от "шкафовый". Это, конечно, очень интересно,

но сильно вредит в практических приложениях.

Как писал Ken
Может быть сравним словари на предмет ошибок?

Вы не могли бы объяснить зачем это может быть нужно,

и как ВЫ собираетесь сравнивать?

K
На сайте с 22.04.2003
Offline
31
Ken
#5

Зачем нужно? Проверить правильно ли программно отработаны пометы описания парадигмы словаря А.А.Зализняка.

B
На сайте с 02.09.2002
Offline
42
bvd
#6
Как писал Ken
Зачем нужно? Проверить правильно ли программно отработаны пометы описания парадигмы словаря А.А.Зализняка.

Я не понял.

Это проверка состава словаря или Вы сомневаетесь в качестве

кодирования?

K
На сайте с 22.04.2003
Offline
31
Ken
#7

Ммм...Немного затрудняюсь ответить, я не знаю, что такое - качество кодирования? Речь идет о развороте словаря.

K
На сайте с 22.04.2003
Offline
31
Ken
#8

Подскажите а где взять выверенные корпуса? Может такие есть?

B
На сайте с 02.09.2002
Offline
42
bvd
#9
Как писал Ken
Подскажите а где взять выверенные корпуса? Может такие есть?

посмотрите http://www.dialog-21.ru/specific_direction.asp?dir_id=1278&forum_id=1408&parent_message_id=1408 ,

а также

http://bokrcorpora.narod.ru

Но для реальных нужд - для Вашего словаря - лучше

прогнать Ваш же собственный корпус, затем посмотреть,

чем надо дополнить словарь, а что у Вас будет считаться ошибками.

K
На сайте с 22.04.2003
Offline
31
Ken
#10

Большое спасибо за ссылки.

Явные орфографические ошибки безусловно надо чистить - даже в Лингво встречаются таковые.

Что считать ошибкой? - еще не знаю, пока сделал лишь разделение - на существующие и потенциально возможные формы.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий