- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Любопытно узнать, когда Яндекс научится разбирать части речи?
Я сделал "дурацкий" запрос и узнал, что между
существительным почта, наречием почти и глаголом почитать (в обоих смыслах) Яндекс разницы не делает.
А может, такой разницы и не существует?
Чтить - это понятно что...
Почтить - немного поделать это самое.
Почту - я кого-нибудь в будущем...
Ага, особенно второй сайт "WMail" - реклама через электронную почту.
Или третий - "Парамедика - почти медицинский сайт".
Если во втором случае шансы угадать часть речи 50 на 50, то в первом определить что это существительное очень просто: во-первых, "электронная почта" - устойчивое словосочетание, а во-вторых
в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними.
Да и во втором случае шансы будут не 50 на 50 если учесть частоту распространения наречия почти и повелительного наклонения глагола почитать.
в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними
-тогда проблема Яндекса в неразличении устойчивых словосочетаний. Сейчас только понял, что "почитать"-это тоже чтить :) как и почту :)
Любопытно узнать, когда Яндекс научится разбирать части речи?
Дело не только в части речи, а в выборе наиболее вероятной формы слова в случае отсутствия контекста. Евгений приводил еще один пример: дело = день (тоже логично: дело => девать => день). Я написал Илье Сегаловичу, он сказал, что они сейчас работают над этим.
С уважением,
Александр Садовский.
Вообще они над этим работают уже лет десять, как и все, кто занимается прикладной лингвистикой.
Потому что главная проблема любых текстовых/речевых технологий - омонимия.
Разбор устойчивых и свободных словосочетаний мог бы помочь на этапе запроса, когда можно относительно просто грамматически разобрать запрос "электронную почту" и выбрать только один омоним - существительное. Однако, что делать, если введено одно слово "почтить"?
Тогда нужно работать с текстом документа, то есть на этапе построения индекса.
А снятие омонимии на этапе индексирования - пока задача не решённая человечеством.
Попробуйте-ка в уме или на бумаге разобрать основные случаи: введена омонимичная словоформа, а в тексте тоже омонимичная форма, введена омонимичная, а в тексте - "уникальная" (не имеющая омонимов), введена "уникальная", а в тексте омонимичная, введена уникальная, в тексте тоже уникальная словоформа. Что здесь правильно делать на этапах индексирования и поиска, в каком случае сводить лексемы, в каком различать и как?
Наложим теперь ещё измерение частая/редкая форма и получится уже довольно запутанная таблица вариантов.
Тут даже эта чёрно-белая логика задачи очень сложная, а уж вопросы производительности и полноты/точности вообще заводят ум за разум.
Ведь даже если поисковик разметит все устойчивые и/или грамматически согласованные словосочетания про почту, прочистит омонимы в терабайте русских текстов (что само по себе огромная инженерная задача), затем оставит только частые формы слов, все формы глагола "почтить" будут потеряны.А вдруг они кому нужны? Редко, но очень сильно?
А если не убирать омонимы, на "почту" полезет шум про почитание.
Единственная относительно легко реализуемая алгоритмически возможность - обрезать паразитную связь между формами "почти" и "почтой". То есть отменить "транзитивность" инцидентности лексем по их формам.
Но и для этого нужно менять логику индексирования. Не знаю, сделано ли уже это у Яндекса, а чтобы аккуратно проверить, нужно время.
Заметим, что Вы как раз ни одного знака не поставили.
По существу замечания: в русском языке - как раз могут сколько угодно, например "давший выпить мне", "красный встает закат", "электронную почту в нём доблесть". В русском языке можно очень многое - к cчастью для говорящих и к несчастью разработчиков.
Интересно, что вообще не получается работать с русским языком, исходя из набора правил, описывающих правильные фразы. Предположение о том, что сбой проверки правильности фразы может указывать на ошибку - неверно, так что в грамматическом корректоре ОРФО в составе Microsoft Office мне пришлось применить специальные словари ошибок!
Ну, а сколько-нибудь полных словарей устойчивых словосочетаний вообще не существует. Их слишком много - десятки миллионов.
Как раз потому, что слишком долгое время пользовался ОРФО :)
давший, это не прилагательное. Точно не скажу причастие это или деепричастие (не помню я таких тонкостей), но не прилагательное.
С остальными Вашими выссказываниями согласен, но не полностью.
Во-первых, поисковику построить довольно полный словарь словосочетаний
очень просто - это многословные (2 и больше) запросы. В том же Яндекс.Директ он (словарь) есть. Да и в Рамблер-ассоциациях. "Устоичивость" их даже можно оценить количественно. Скажем более 1000 запросов в месяц.
Во-вторых, омонимическую неопределенность очень просто уточнить у пользователя, например так же, как сейчас предлагают исправлять орфографические ошибки. Одно это сильно упростит работу с поисковиком - будет достаточно просто перейти по ссылке, вместо мучительных раздумий на тему уточнения запроса.
В-третьих: да, с порядком слов я погорячился, но "неправильный" порядок слов бывает а) в литературных произведениях, преимущественно стихотворной формы и б) в неграмотных текстах (моих например :D)
В энциклопедических статьях, научных (но не филологических :)) публикациях и технической документации порядок слов прямой, а не извращенный. Соответственно можно попытатся поспекулировать на эту тему.
ИМХО, реализация второго пункта могла бы довольно сильно улучшить поиск (как всегда вопрос в количестве пользователей нуждающихся в данной фиче). По крайней мере, выбрав пункт почитать (читать) вместо почитать(чтить), я бы был избавлен от документов про почту. А для реализации данной фичи нужно только наличие словаря омонимов (надеюсь он существует :)) и один день работы по внесению изменений в движок, включая тестирование (правда зависит от того, насколько просто движок поддаётся модификациям).
Словарей, конечно нету. Но рабочий словарь антонимов легко составить автоматически - на лету, а в качестве толкования можно давать "различающую" словоформу.
Но это - на этапе запроса. А на этапе индексирования всё очень непросто, как я уже говорил.
Думаю, что словарь антонимов тут не причём, их перепутать тяжело :)
Кстати, в случае замок (дворец) замок (девайс) автомат не прокатит.
Различий в словоформах нет.
Про этап индексирования я и не спорю, что всё весьма не просто, но порой складывается впечатление, что в этом направлении вообще никаких шагов не предпринимается.
Прошу прощения, я оговорился. Хотел сказать "словарь омонимов".
Вот смотрите, что я имею в виду.
Вы вводите запрос "дело". Допустим, поисковик вас переспрашивает:
Вы имеете в виду существительное "дело" или глагол "деть"?
Классно, да? Это ведь какой интеллектище! Немного искусственный, правда.
Теперь Вы выбираете "дело" и запускаете поиск.
Таким образом, вам обещано теперь различить два данных слова при поиске в текстах.
Но есть обещание, а есть реальная ситуация в текстах. Там есть три вида словоформ:
1) уникальные для "дело" (делу, делом, деле, делам, делами...)
2) омонимичные (дело, дела, дел)
3) уникальные для "деть" (дену, денешь, денет, день...).
На самом деле интеллектуальный поисковик дал вам невыполнимое обещание: различить в ТЕКСТЕ он может только словоформы вида 1) и 3).
А все словоформы вида 2) так и пойдут в результаты поиска. Действительно, как различить омонимы во фразах "У меня много дел", "Он много денег неизвестно куда дел", "А сколько дел?" Я бы не взялся. Особенно в последней фразе - там и человек не отличит, если не слышал предыдущего высказывания.
Сделаешь слишком жёсткий алгоритм - потеряешь вхождения, мягкий - оставишь шум.
То есть в действительности обещание будет выполнено не полностью.
Но интересно, что часто индексация у поисковиков вообще для простоты устроена так: при индексации нашли слово "делами". Слазили в морфологический словарь. Получили его нормальную форму "дело". А потом ссылки на ВСЕ её омонимы положили в базу. И получили, что "делами" - форма слова "деть"! В этой ситуации неразличимы и формы типов 1 и 3. Фактически, объявлены эквивалентными все словоформы обоих слов, то есть их парадигмы объединены.
Дальше эта дурная транзитивность начинает зацеплять третьи слова, которые совпадают уже с глаголом "деть" в одной-единственной форме.
В результате оказывается, что "дело" имеет форму "день"!
Конечно, в Яндексе сделано не совсем уж так просто. Проблемы начинаются, если задать в запросе омонимичную форму. Если же войти с уникальной словоформой, ситуация будет получше.
Для примера см. пятую ссылку в Яндексе при запросе "дело":
http://ya.ru/yandsearch?text=%E4%E5%EB%EE
Если же войти с запросом "делами" (уникальная форма), вхождения слова "день" уже не получим.
Но вот пример другого рода:
http://ya.ru/yandsearch?text=%EF%F0%EE%F1%F2%EE%E5%EC&rpt=rad
Спрашиваем "простоем", находит все вхождения слова "просто". Казалось бы, какая связь? А дело в том, что фактически объединились парадигмы существительного "простой" и прилагательного" простой", а у последнего есть краткая форма "просто".
Это действительно яркий пример объединения парадигм.
Предлагаю самостоятельно поэкспериментировать с формами глагола "простоять" - тоже жертвы индексной "транзитивности".
Правда, переход от "простоишь" к "просто" совершить уже не удастся.
Интересно, что в Яндексе на все эти ествественные сложности накладывается ещё и построение гипотез о склонении неизвестных слов, и в результате получается совсем уже кучеряво:
http://ya.ru/yandsearch?text=%E4%E5%ED%E8&rpt=rad
Спрашиваю название стирального порошка "Дени" (http://www.sang.spb.ru/site/products/sms/deny.htm), получаю вхождения "дни", "дня", и т.п.