Яндекс и части речи

257

AiK

11 июня 2002, 22:43

4857

Любопытно узнать, когда Яндекс научится разбирать части речи?

Я сделал "дурацкий" запрос и узнал, что между

существительным почта, наречием почти и глаголом почитать (в обоих смыслах) Яндекс разницы не делает.

357

euhenio

12 июня 2002, 08:36

#1

А может, такой разницы и не существует?

Чтить - это понятно что...

Почтить - немного поделать это самое.

Почту - я кого-нибудь в будущем...

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

257

AiK

12 июня 2002, 09:03

#2

Ага, особенно второй сайт "WMail" - реклама через электронную почту.

Или третий - "Парамедика - почти медицинский сайт".

Если во втором случае шансы угадать часть речи 50 на 50, то в первом определить что это существительное очень просто: во-первых, "электронная почта" - устойчивое словосочетание, а во-вторых

в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними.

Да и во втором случае шансы будут не 50 на 50 если учесть частоту распространения наречия почти и повелительного наклонения глагола почитать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

12 июня 2002, 09:27

#3

"электронная почта" - устойчивое словосочетание, а во-вторых
в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними

-тогда проблема Яндекса в неразличении устойчивых словосочетаний. Сейчас только понял, что "почитать"-это тоже чтить :) как и почту :)

F

116

funsad

12 июня 2002, 11:32

#4

Первоначальное сообщение от AiK
Любопытно узнать, когда Яндекс научится разбирать части речи?

Дело не только в части речи, а в выборе наиболее вероятной формы слова в случае отсутствия контекста. Евгений приводил еще один пример: дело = день (тоже логично: дело => девать => день). Я написал Илье Сегаловичу, он сказал, что они сейчас работают над этим.

С уважением,

Александр Садовский.

UPD: Яндекс улучшил нахождение Google не сканирует страницу CPA сеть AdmitAd.com |

66

Ashmanov

13 июня 2002, 19:21

#5

Вообще они над этим работают уже лет десять, как и все, кто занимается прикладной лингвистикой.

Потому что главная проблема любых текстовых/речевых технологий - омонимия.

Разбор устойчивых и свободных словосочетаний мог бы помочь на этапе запроса, когда можно относительно просто грамматически разобрать запрос "электронную почту" и выбрать только один омоним - существительное. Однако, что делать, если введено одно слово "почтить"?

Тогда нужно работать с текстом документа, то есть на этапе построения индекса.

А снятие омонимии на этапе индексирования - пока задача не решённая человечеством.

Попробуйте-ка в уме или на бумаге разобрать основные случаи: введена омонимичная словоформа, а в тексте тоже омонимичная форма, введена омонимичная, а в тексте - "уникальная" (не имеющая омонимов), введена "уникальная", а в тексте омонимичная, введена уникальная, в тексте тоже уникальная словоформа. Что здесь правильно делать на этапах индексирования и поиска, в каком случае сводить лексемы, в каком различать и как?

Наложим теперь ещё измерение частая/редкая форма и получится уже довольно запутанная таблица вариантов.

Тут даже эта чёрно-белая логика задачи очень сложная, а уж вопросы производительности и полноты/точности вообще заводят ум за разум.

Ведь даже если поисковик разметит все устойчивые и/или грамматически согласованные словосочетания про почту, прочистит омонимы в терабайте русских текстов (что само по себе огромная инженерная задача), затем оставит только частые формы слов, все формы глагола "почтить" будут потеряны.А вдруг они кому нужны? Редко, но очень сильно?

А если не убирать омонимы, на "почту" полезет шум про почитание.

Единственная относительно легко реализуемая алгоритмически возможность - обрезать паразитную связь между формами "почти" и "почтой". То есть отменить "транзитивность" инцидентности лексем по их формам.

Но и для этого нужно менять логику индексирования. Не знаю, сделано ли уже это у Яндекса, а чтобы аккуратно проверить, нужно время.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

13 июня 2002, 19:44

#6

во-первых, "электронная почта" - устойчивое словосочетание, а во-вторых в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними.

Заметим, что Вы как раз ни одного знака не поставили.

По существу замечания: в русском языке - как раз могут сколько угодно, например "давший выпить мне", "красный встает закат", "электронную почту в нём доблесть". В русском языке можно очень многое - к cчастью для говорящих и к несчастью разработчиков.

Интересно, что вообще не получается работать с русским языком, исходя из набора правил, описывающих правильные фразы. Предположение о том, что сбой проверки правильности фразы может указывать на ошибку - неверно, так что в грамматическом корректоре ОРФО в составе Microsoft Office мне пришлось применить специальные словари ошибок!

Ну, а сколько-нибудь полных словарей устойчивых словосочетаний вообще не существует. Их слишком много - десятки миллионов.

257

AiK

13 июня 2002, 20:45

#7

Заметим, что Вы как раз ни одного знака не поставили.

Как раз потому, что слишком долгое время пользовался ОРФО :)

давший, это не прилагательное. Точно не скажу причастие это или деепричастие (не помню я таких тонкостей), но не прилагательное.

С остальными Вашими выссказываниями согласен, но не полностью.

Во-первых, поисковику построить довольно полный словарь словосочетаний

очень просто - это многословные (2 и больше) запросы. В том же Яндекс.Директ он (словарь) есть. Да и в Рамблер-ассоциациях. "Устоичивость" их даже можно оценить количественно. Скажем более 1000 запросов в месяц.

Во-вторых, омонимическую неопределенность очень просто уточнить у пользователя, например так же, как сейчас предлагают исправлять орфографические ошибки. Одно это сильно упростит работу с поисковиком - будет достаточно просто перейти по ссылке, вместо мучительных раздумий на тему уточнения запроса.

В-третьих: да, с порядком слов я погорячился, но "неправильный" порядок слов бывает а) в литературных произведениях, преимущественно стихотворной формы и б) в неграмотных текстах (моих например :D)

В энциклопедических статьях, научных (но не филологических :)) публикациях и технической документации порядок слов прямой, а не извращенный. Соответственно можно попытатся поспекулировать на эту тему.

ИМХО, реализация второго пункта могла бы довольно сильно улучшить поиск (как всегда вопрос в количестве пользователей нуждающихся в данной фиче). По крайней мере, выбрав пункт почитать (читать) вместо почитать(чтить), я бы был избавлен от документов про почту. А для реализации данной фичи нужно только наличие словаря омонимов (надеюсь он существует :)) и один день работы по внесению изменений в движок, включая тестирование (правда зависит от того, насколько просто движок поддаётся модификациям).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

13 июня 2002, 21:22

#8

Словарей, конечно нету. Но рабочий словарь антонимов легко составить автоматически - на лету, а в качестве толкования можно давать "различающую" словоформу.

Но это - на этапе запроса. А на этапе индексирования всё очень непросто, как я уже говорил.

257

AiK

13 июня 2002, 21:56

#9

Думаю, что словарь антонимов тут не причём, их перепутать тяжело :)

Кстати, в случае замок (дворец) замок (девайс) автомат не прокатит.

Различий в словоформах нет.

Про этап индексирования я и не спорю, что всё весьма не просто, но порой складывается впечатление, что в этом направлении вообще никаких шагов не предпринимается.

66

Ashmanov

14 июня 2002, 04:49

#10

Прошу прощения, я оговорился. Хотел сказать "словарь омонимов".

Вот смотрите, что я имею в виду.

Вы вводите запрос "дело". Допустим, поисковик вас переспрашивает:

Вы имеете в виду существительное "дело" или глагол "деть"?

Классно, да? Это ведь какой интеллектище! Немного искусственный, правда.

Теперь Вы выбираете "дело" и запускаете поиск.

Таким образом, вам обещано теперь различить два данных слова при поиске в текстах.

Но есть обещание, а есть реальная ситуация в текстах. Там есть три вида словоформ:

1) уникальные для "дело" (делу, делом, деле, делам, делами...)

2) омонимичные (дело, дела, дел)

3) уникальные для "деть" (дену, денешь, денет, день...).

На самом деле интеллектуальный поисковик дал вам невыполнимое обещание: различить в ТЕКСТЕ он может только словоформы вида 1) и 3).

А все словоформы вида 2) так и пойдут в результаты поиска. Действительно, как различить омонимы во фразах "У меня много дел", "Он много денег неизвестно куда дел", "А сколько дел?" Я бы не взялся. Особенно в последней фразе - там и человек не отличит, если не слышал предыдущего высказывания.

Сделаешь слишком жёсткий алгоритм - потеряешь вхождения, мягкий - оставишь шум.

То есть в действительности обещание будет выполнено не полностью.

Но интересно, что часто индексация у поисковиков вообще для простоты устроена так: при индексации нашли слово "делами". Слазили в морфологический словарь. Получили его нормальную форму "дело". А потом ссылки на ВСЕ её омонимы положили в базу. И получили, что "делами" - форма слова "деть"! В этой ситуации неразличимы и формы типов 1 и 3. Фактически, объявлены эквивалентными все словоформы обоих слов, то есть их парадигмы объединены.

Дальше эта дурная транзитивность начинает зацеплять третьи слова, которые совпадают уже с глаголом "деть" в одной-единственной форме.

В результате оказывается, что "дело" имеет форму "день"!

Конечно, в Яндексе сделано не совсем уж так просто. Проблемы начинаются, если задать в запросе омонимичную форму. Если же войти с уникальной словоформой, ситуация будет получше.

Для примера см. пятую ссылку в Яндексе при запросе "дело":

http://ya.ru/yandsearch?text=%E4%E5%EB%EE

Если же войти с запросом "делами" (уникальная форма), вхождения слова "день" уже не получим.

Но вот пример другого рода:

http://ya.ru/yandsearch?text=%EF%F0%EE%F1%F2%EE%E5%EC&rpt=rad

Спрашиваем "простоем", находит все вхождения слова "просто". Казалось бы, какая связь? А дело в том, что фактически объединились парадигмы существительного "простой" и прилагательного" простой", а у последнего есть краткая форма "просто".

Это действительно яркий пример объединения парадигм.

Предлагаю самостоятельно поэкспериментировать с формами глагола "простоять" - тоже жертвы индексной "транзитивности".

Правда, переход от "простоишь" к "просто" совершить уже не удастся.

Интересно, что в Яндексе на все эти ествественные сложности накладывается ещё и построение гипотез о склонении неизвестных слов, и в результате получается совсем уже кучеряво:

http://ya.ru/yandsearch?text=%E4%E5%ED%E8&rpt=rad

Спрашиваю название стирального порошка "Дени" (http://www.sang.spb.ru/site/products/sms/deny.htm), получаю вхождения "дни", "дня", и т.п.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Open AI тестирует память для ChatGPT

Маркетинг для шоколадной фабрики. На 34% выше средний чек