- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день.
Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик?
Где-нибудь можно протестировать "разворот" словаря Зализняка?
Добрый день.
Существуют ли методики автоматического тестирования/проверки словарей на наличие ошибок в парадигме и неверных морфологических характеристик?
Где-нибудь можно протестировать "разворот" словаря Зализняка?
День добрый!
Чтобы говорить о методике надо определиться с тем, что
понимается под ошибкой.
Дело в том, что и в русском "литературном" языке масса
спорных моментов, которые разные исследователи толкуют по
разному. Кроме того, язык развивается и постоянно изменяется.
Плюс для реальных задач можно пойти на некоторые упрощения.
В общем случае, проще всего взять корпус текстов побольше
(лучше авторитетный - то есть выверенный кем-то),
прокрутить, проанализировать неизвестные программе разбора слова.
Если словоформа написана без ошибок, лемма есть в словаре, но не найдена - неправильная парадигма.
"Избыточность" парадигмы (лишние словоформы для леммы) проверять сложнее, но это достаточно мало критично в задачах обработки текста
(если не требуется проверка орфографии). Формально можно предложить
прокрутить ОЧЕНЬ большой корпус текстов - чтобы там встречались ВСЕ
словоформы словаря. И посмотреть, что не было употреблено.
Но это утопия - нет больших выверенных корпусов, а пока их будут
создавать, они немножко устареют.
Борис, приветствую.
Поясни, зачем нужен выверенный корпус?
Статистика д.б. достаточна на любом корпусе, естественно, большом (порядка сотни миллионов словомест и чем больше, тем лучше). Вероятность наложения устойчивых ошибок (типа агенство) на ошибки словаря достаточно мала, во всяком случае, объем здесь должен побить качество выверенного корпуса.
Я не говорю, конечно, за другие задачи текстового анализа, часто без качества не обойтись.
Мы гоняли "своего" Зализняка через невыверенные тексты и качеством вполне довольны. Правда, давно это было, альтернативы - хороших объемных корпусов и не было.
2AlexA
Ммм... словарь Зализняка позволяет получить не только существующие формы, но и потенциальные, к примеру ср.ст."абрикосовее", мн.ч."автомобилестроения" и т.п. Считать ли такие формы - "правильными"? Думаю - да.
Более того "выверенные" корпуса текстов не дают грамматической, а уж тем более и фонетической информации.
Может быть сравним словари на предмет ошибок?
Борис, приветствую.
Поясни, зачем нужен выверенный корпус?
Добрый день, Александр!
IMHO для задач информационного поиска (индексирования, расширения запроса и подсветки) требуется своя морфология
(например, полезно соединять "итало", "итальяно", "(по-)итальянски",
"итальянский"; но, возможно, разделять глаголы и причастия),
для других задач своя.
Выверенный по какому-то основанию корпус - это неявное задание
правил того "русского языка", с которым приходится иметь дело.
А так я попробовал дать формальный ответ на формальный вопрос.
Ммм... словарь Зализняка позволяет получить не только существующие формы, но и потенциальные, к примеру ср.ст."абрикосовее", мн.ч."автомобилестроения" и т.п. Считать ли такие формы - "правильными"? Думаю - да.
По-моему (могу ошибиться с точностью цитаты), также "бюджетов"
от "бюджетный", "шкафов" от "шкафовый". Это, конечно, очень интересно,
но сильно вредит в практических приложениях.
Может быть сравним словари на предмет ошибок?
Вы не могли бы объяснить зачем это может быть нужно,
и как ВЫ собираетесь сравнивать?
Зачем нужно? Проверить правильно ли программно отработаны пометы описания парадигмы словаря А.А.Зализняка.
Зачем нужно? Проверить правильно ли программно отработаны пометы описания парадигмы словаря А.А.Зализняка.
Я не понял.
Это проверка состава словаря или Вы сомневаетесь в качестве
кодирования?
Ммм...Немного затрудняюсь ответить, я не знаю, что такое - качество кодирования? Речь идет о развороте словаря.
Подскажите а где взять выверенные корпуса? Может такие есть?
Подскажите а где взять выверенные корпуса? Может такие есть?
посмотрите http://www.dialog-21.ru/specific_direction.asp?dir_id=1278&forum_id=1408&parent_message_id=1408 ,
а также
http://bokrcorpora.narod.ru
Но для реальных нужд - для Вашего словаря - лучше
прогнать Ваш же собственный корпус, затем посмотреть,
чем надо дополнить словарь, а что у Вас будет считаться ошибками.
Большое спасибо за ссылки.
Явные орфографические ошибки безусловно надо чистить - даже в Лингво встречаются таковые.
Что считать ошибкой? - еще не знаю, пока сделал лишь разделение - на существующие и потенциально возможные формы.