- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Интересует из чего состоит словарь для такого анализа? Какая у него структура?
Там ведь не хранятся все словоформы? Если в словарь помещать только основу слова, тогда как быть с такими случаями как: ребенок, дети?
ребенок, дети?
это синонимы. причем тут морфология?
это синонимы. причем тут морфология?
Какие ж это синонимы? По-моему слово "дети" множественное число слова "ребенок", но если этот пример не подходит тогда можно такой: "человек" - "люди".
Какие ж это синонимы? По-моему слово "дети" множественное число слова "ребенок", но если этот пример не подходит тогда можно такой: "человек" - "люди".
Морфологии бывают разные, в том числе стемминговые (стол*) и вероятностные (черный ящик по контексту).
Классический подход к словарю для автоматического морфологического анализа - словарь Зализняка.
Посмотрите также статьи Белоногова в НТИ, сайт Андрея Коваленко.
Насчет "дети" - в русской морфологии есть кучка сложных случаев, которые могут решаться по разному в зависимости от задачи.
Помните, что к любой красивой модели можно добавить списки исключений - как слов, так и кусков других моделей.
Другие вспомнившиеся мне сейчас проблемы русской и не только морфологии, которые могут решаться по-разному, в зависимости от задачи - делается ли "синтаксический анализ", разбор запроса или подсветка результатов:
- дефисные слова: "Камень-на-Оби", "Париж-Даккар" - сколько слов + всех возможных сочетаний словаре не перечислишь
- краткие формы прилагательных: "русско-африканский" - что такое "русско" и сколько слов
- наречия: "по-русски" - оставлять или сводить к прилагательному
- причастия и деепричастия - сводить к глаголу или оставить отдельной формой
- что делать с мертвыми формами - прилагательное "бюджетов"
- совпадение собственных имен с обычными словами (например, в начале предложения): "Сапогов"
и т.д.
Основная проблема - как разбирать неописанное в словаре слово.
walker, спасибо посмотрю в этом направлении. А о каком сайте Андрея Коваленко идет речь, не могу найти, кстати знаком с одним Андреем Коваленко :)
На сколько я понял, словарь представляет совой набор правил и списков исключений, что ж почитаю пока про методики которые Вы указали.
До построения гипотез для неописаных в словаре слов мне пока еще далеко, мне со словарной морфологией разобратся ;-)
http://yandex.ru/yandsearch?text=%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D1%8F+%D0%9A%D0%BE%D0%B2%D0%B0%D0%BB%D0%B5%D0%BD%D0%BA%D0%BE+%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F
смотрите еще http://scon155.phys.msu.su/eng/lebedev.html (ispell)
для себя делал по Лебедеву (если кому надо обращайтесь) все словоформы словаря похожего на Зализняка