- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.
Идея хорошая, но для качественной проверки придется прогнать большой объем данных.
И хотя тексты сейчас значительно чище чем раньше, но все равно
довольно много ошибок - даже при 0.1% от словоупотреблений для 100 Мбайт обработанных текстов - будет около 15 тысяч ошибок.
Плюс, допустим, столько же хороших, то есть достойных для включения в словарь, но неизвестных словарю слов (а по-видимому гораздо больше).
И огромная куча "нехороших" слов,
которые не включают обычно в словарь - фамилии,
названия мелких географических объектов, фирм, продуктов и т.п.
В результате, грубо оценивая = 100-200 тысяч строк, которые придется просмотреть ручками/глазками.
Хотя это та работа, которая делается при создании/развитии
морфословаря. Причем, ясно, однажды принятые решения могут использоваться далее. Именно за эту работу и берется "прибавочная стоимость".
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.
Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.
Ken, у Вас явно неправильный набор текстов. Возьмите содержимое lib.ru, оно покроет 95% всех общеупотребительных словоформ ;)
Для остальных форм можно использовать статистику по количеству страниц для каждой такой подозрительной формы в яндексе (для русского) и google (для английского). Для поиска конкретной словоформы ставьте перед ней знак !, например,
!ищомый.
Большое спасибо, приступаю
Хех...
Вовсе не обязательно. Если в руках есть изменяющийся хороший набор текстов, вполне возможно периодически устраивать подобную чистку и автоматически.