Тестирование словаря

Ken · 2003-09-25T08:51:02.0000000Z

Добрый день. Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик? Где-нибудь можно протестировать "разворот" словаря Зализняка?

B

42

bvd

12 января 2004, 13:33

#21

Как писал Vyacheslav Tikhonov

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Идея хорошая, но для качественной проверки придется прогнать большой объем данных.

И хотя тексты сейчас значительно чище чем раньше, но все равно

довольно много ошибок - даже при 0.1% от словоупотреблений для 100 Мбайт обработанных текстов - будет около 15 тысяч ошибок.

Плюс, допустим, столько же хороших, то есть достойных для включения в словарь, но неизвестных словарю слов (а по-видимому гораздо больше).

И огромная куча "нехороших" слов,

которые не включают обычно в словарь - фамилии,

названия мелких географических объектов, фирм, продуктов и т.п.

В результате, грубо оценивая = 100-200 тысяч строк, которые придется просмотреть ручками/глазками.

Хотя это та работа, которая делается при создании/развитии

морфословаря. Причем, ясно, однажды принятые решения могут использоваться далее. Именно за эту работу и берется "прибавочная стоимость".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

12 января 2004, 13:55

#22

Vyacheslav Tikhonov
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

VT

130

Vyacheslav Tikhonov

12 января 2004, 23:09

#23

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

Ken, у Вас явно неправильный набор текстов. Возьмите содержимое lib.ru, оно покроет 95% всех общеупотребительных словоформ ;)

Для остальных форм можно использовать статистику по количеству страниц для каждой такой подозрительной формы в яндексе (для русского) и google (для английского). Для поиска конкретной словоформы ставьте перед ней знак !, например,

!ищомый.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

13 января 2004, 09:12

#24

Большое спасибо, приступаю

K

31

Ken

13 января 2004, 09:39

#25

Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Хех...

VT

130

Vyacheslav Tikhonov

13 января 2004, 10:02

#26

Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Вовсе не обязательно. Если в руках есть изменяющийся хороший набор текстов, вполне возможно периодически устраивать подобную чистку и автоматически.

Что делать, если ваша email-рассылка попала в спам

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов