- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?
Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?
Лучше всего купить, причем с сопровождением.
Где можно купить? Те, что я встречал стоят не одну тысячу долларов - для студента деньги большие, да и проект у меняя изначально бесплатный.
И ты проект делаешь на подобную тему? А что конкретно, можно узнать? Может приватно поделимся?
Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.
Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.
Если проект некоммерческий и Вы можете гарантировать
некоммерческое использование программ/словарей,
то многие могут дать Вам все бесплатно.
Если же не можете гарантировать - тогда за хорошее надо платить
и платить дорого.
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.
Да без проблем, только я не очень понимаю как и зачем.
Как:
пришлете мне свой список - я Вам скажу сколько процентов пересечения? (В общем, чтобы за 10-20 минут сделать).
Зачем:
наша морфология заточена на обеспечение обработки текста
(терминология, рубрикация). Основное требование - чтобы
среди порожденных вариантов лемм для незнакомых словоформ
БЫЛ ПРАВИЛЬНЫЙ (*).
Кроме того при словаре в 130 тыс. лемм (при необходимости,
со специальной оболочкой может расти со скоростью/себестоимостью
1000 лемм/неделя/USD40) имеется комплект примочек на приставки,
суффиксы, пользовательский словарь и т.п. (плюс встроенные
модели разных фамилий) - чтобы урезать порождаемый список лемм.
По-моим, возможно неточным, оценкам на российских текстах типа деловой прозы работает правильно (в смысле *) где-то для 99,7-99,9 процентов словоупотреблений. Мне хватает,
при этом без примочек было бы процентов 97.
Для других целей (например, для проверки орфографии) и морфология должна быть своя. То есть можно применять и эту, но результаты будут хуже - надо подкручивать.
То есть имеет смысл сравнивать не словари, а результат работы
программ, например, как предложено И.Сегаловичем. Да и то,
смысла немного при разбросе 97-99% от словоупотреблений.
Да, кстати - откуда цифра 130 тыс. Если мне не изменяет память,
сначала урезали и почистили Зализняка до 70 тыс., затем
набрали для обеспечения покрытия наших текстов и используемых ресурсов.
Еще, кстати, имеется несколько известных дыр,
(не знаю, от кого они идут, может от Зализняка)
но смысла их исправлять пока нет - и так работает.
Есть и несколько проблем - тот же диагноз.
То есть еще более правильно - Вам надо получить проценты покрытия своих текстов (и если захотите, то и точности). А словари сами по себе - зачем?
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.
У меня словарь Зализняка подчистился до 83 тыс. слов - прогон на текстах выявляет лишь отсутствие словоформы в словаре. Но - при получении парадигмы из словарной статьи у меня могли быть ошибки, хоть и руками все выверял. Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.
Ну тогда это не ко мне. Чистку делали, но это не была критичная задача.
Кроме того, при чистке полезли проблемы, самой существенной мне кажется проблема краткой формы прилагательных ("русско-итальянский"), а также близких к ним наречий ("по-русски"). Плюс причастия с не- .
Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.
Если Вас устроит - можно переслать (bvd@mail.ru) мне список сгенеренных словоформ, а я в ответ файл обработки.
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.