Тестирование словаря

1 23
B
На сайте с 02.09.2002
Offline
42
bvd
#21
Как писал Vyacheslav Tikhonov

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Идея хорошая, но для качественной проверки придется прогнать большой объем данных.

И хотя тексты сейчас значительно чище чем раньше, но все равно

довольно много ошибок - даже при 0.1% от словоупотреблений для 100 Мбайт обработанных текстов - будет около 15 тысяч ошибок.

Плюс, допустим, столько же хороших, то есть достойных для включения в словарь, но неизвестных словарю слов (а по-видимому гораздо больше).

И огромная куча "нехороших" слов,

которые не включают обычно в словарь - фамилии,

названия мелких географических объектов, фирм, продуктов и т.п.

В результате, грубо оценивая = 100-200 тысяч строк, которые придется просмотреть ручками/глазками.

Хотя это та работа, которая делается при создании/развитии

морфословаря. Причем, ясно, однажды принятые решения могут использоваться далее. Именно за эту работу и берется "прибавочная стоимость".

K
На сайте с 22.04.2003
Offline
31
Ken
#22
Vyacheslav Tikhonov
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

VT
На сайте с 27.01.2001
Offline
130
#23
Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

Ken, у Вас явно неправильный набор текстов. Возьмите содержимое lib.ru, оно покроет 95% всех общеупотребительных словоформ ;)

Для остальных форм можно использовать статистику по количеству страниц для каждой такой подозрительной формы в яндексе (для русского) и google (для английского). Для поиска конкретной словоформы ставьте перед ней знак !, например,

!ищомый.

K
На сайте с 22.04.2003
Offline
31
Ken
#24

Большое спасибо, приступаю

K
На сайте с 22.04.2003
Offline
31
Ken
#25
Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Хех...

VT
На сайте с 27.01.2001
Offline
130
#26
Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Вовсе не обязательно. Если в руках есть изменяющийся хороший набор текстов, вполне возможно периодически устраивать подобную чистку и автоматически.

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий