Яндекс и Грибоки (или Седьмой Падеж)

123
U
На сайте с 19.03.2006
Offline
101
Utr
#11
T.R.O.N:
Utr,
1. Яша - поисковая система, а не орфографический словарь.
2. Яша - это набор программ, которые пытаются дать самый адекватный ответ на поставленный вопрос.
3. Основной критерий поиска - найти, то что просили. При этом при всех каверзах русского языка, он подбирает то, чего больше в сети (он зеркало сети) и не обязательно граматно.
Два классических примера
Яша http://www.yandex.ru/yandsearch?text=%E0%F0%F4%E0%E3%F0%E0%F4%E8%F7%E5%F1%EA%E8%E9+%F1%EB%E0%E2%E0%F0%FC
Гуглер http://www.google.ru/search?hl=ru&q=%D0%B5%D0%B1%D0%BB%D0%B0%D0%BD&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=

Любая ПС должна обрабатывать язык ровно на столько, на сколько это полезно для поиска, ибо есть правило - человек думает, машина работает.

Яша обрабатывает русский язык, пытаясь привести слова, которые знает к начальной форме. Этого в полне достаточно.

Это не совсем так.

На самом деле, любая ПС, претендующая на звание "русской", должна "понимать" законы, по которым образуются слова именно в русском языке. И вести себя - да - как орфографический словарь. И, при обнаружении ошибки при написании "сАбака", корректно подсказывать: "Опечатка? возможно, имелось в виду: «собака»".

Собственно, кажется, именно Яндекс и ввёл первым такой подход к делу, обрабатывая запрос не "так, как полезно для поиска", а так, как полагается по-русски. При этом, деликатно указывая безграмотному человеку на возможную ошибку и направляя на истинный путь. И это есть комильфо.

Что же касается "арфаграфического славаря" и прочих "афтаров", то Яндекс, действительно, включил определенное количество выражений из сленга "падонкоф" в свою словарную базу - реагируя на реалии сегодняшнего дня. Но это не имеет отношения к общим принципам словообразования.

Если внимательно посмотреть на приведенный мною текст, то можно заметить, что Яндекс "не дружит" конкретно с беглыми гласными. Неправильные запросы, относящиеся к другим разделам русского языка, он обрабатывает корректно, указывая на возможные ошибки. А вот с беглыми гласными - то так, то эдак. Характерный пример - слова "козёл, осёл, орёл". В учебнике русского языка эти слова стоят в едином словарном ряду. Специально отобраны и поставлены - иллюстрировать правило склонения "козлы, ослы, орлы". Однако же, если Яндекс вполне допускает безграмотное склонение "козёлы" и "осёлы", то орла он в обиду не даст и запрос "орелы" сразу же поправит. Яндекс разрешит окончание урка, но не поймёт истечение срка. И если на клубоки Яндекс ругается, то вот по части грибоков очень даже благосклонен.

Что, возможно, многое объясняет.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#12
Utr:
Собственно, кажется, именно Яндекс и ввёл первым такой подход к делу, обрабатывая запрос не "так, как полезно для поиска", а так, как полагается по-русски. При этом, деликатно указывая безграмотному человеку на возможную ошибку и направляя на истинный путь. И это есть комильфо.

Я Вам привел пример. Яша и не попытался вносить в коррективы этого, ибо именно так часто втречается в сети.

Есть два подхода к любому вопросу,

- с точки зрения логики

- с точки зрения существующих правил.

Есть много людей, которые считают что споры вокруг написания слова "парашют" могут серьезно помочь великому и могучему...

Работа ПС не учить людей, а искать то, что просят, используя свою "логику". Если люди этого хотят - это нужно дать. Для тонкостей и нюансов языка существует очень много сайтов иных. Зачем поисковику заниматься не свойственным ему делом. Усложнеие алгоритмов всгда ведет к неприятным последствиям.

PS Чтобы появился реальный продукт(программный), который бы имел 90% точность определения ошибок, нужно чтобы языковеды, программисты и математики смогли некоторое время говорить на одном языке. пока это не удается.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
U
На сайте с 19.03.2006
Offline
101
Utr
#13

T.R.O.N,

Ваш пример - это исключение, сделанное для жаргона "падонкоф" как для социального явления. Это исключение специально оговорено Яндексом. А есть словоформы, которыми вообще практически никто не пользуется - наподобие "сыноков" и "дочеков". Но к "сынокам" у Яндекса отношение одно, а к "дочекам" ровно противоположное.

Собственно, я согласен с Вами в том, что 100% точности определения ошибок Яндекс пока не достиг. Возможно, он к этому стремится. Но смысл всего выступления был таков - на данный момент всерьёз исследовать аспекты "понимания" Яндексом морфологии - малоперспективное занятие. Потому что при таких исследованиях мы предполагаем, к примеру, что в русском языке 6 падежей, а Яндекс может располагать числом и поболее.

di_max
На сайте с 27.12.2006
Offline
262
#14
Utr:
Потому что при таких исследованиях мы предполагаем, к примеру, что в русском языке 6 падежей, а Яндекс может располагать числом и поболее.

имхо, Яндекс, как система механистическая, исскуственного происхождения, сама создавать ни чего не может. Максимум ее возможностей - отражать, с той или иной степенью точности, окружающую ее реальность. А если реальность на сегодняшний день такова, то пенять можем только на себя.

Слова "матерщынник" и "крамольник" из известной песни Вл. Высоцкого, ни одина ПС исправлять не будет... Имхо, конечно...

// Все наши проблемы от нашего не знания...
T.R.O.N
На сайте с 18.05.2004
Offline
314
#15
Utr:
Собственно, я согласен с Вами в том, что 100% точности определения ошибок Яндекс пока не достиг. Возможно, он к этому стремится.

Скорее всего, не стремится. Ему это не нужно.

Utr:
Но смысл всего выступления был таков - на данный момент всерьёз исследовать аспекты "понимания" Яндексом морфологии - малоперспективное занятие.

Есть факт, яша умеет "переколдовывать" фразы из запроса и из контента сайта, устанавливая некое соответствие. Он это делает, исходя из логики поиска, и "накопленного опыта". Это нужно понимать.

Ведь поиск- это искуство. =)))

[Удален]
#17

А что Вы хотели увидеть по данным запросам? матрацы? :)

Яндекс исправляет наши же ошибки.

Разве плохо запросить подростоки и получить подростков в выдаче?

Запросы пользователей собираются и анализируются... далее Ошибайтесь чаще, и ваши ошибки помогут вашим товарищам!
источник тут

Это не ошибка Яндекс, это сервис. :)

U
На сайте с 19.03.2006
Offline
101
Utr
#18

Хм.

А почему как бы само собой разумеется, что "люди так говорят" - так, как я проиллюстрировал? Люди так не говорят. Попытки говорить подобным образом строгие училки пресекают ещё в третьем классе и это крепко вбивается в подкорку на всю жизнь. К "падонкофскому" сленгу данные слова тоже не относятся. Кто-нибудь реально слышал, как ваши окружающие (или, хотя бы, подростки на улице) говорят про "сыроки", "грибоки" и "клубоки"? Лично я - нет.

Но можно проверить - насколько такие словоформы вообще распространены.

Поиск с точным соответствием запросу даёт количество страниц, на которых данные слова встречаются именно в приведённой мною форме:

===================

старые пени - страниц 37

сыроком - страниц 38

сыноки - страниц 32

осёлы - страниц 11

петушоки - страниц 2

счастливецем - 1 (и та с данной свежепроиндексированной темы)

===================

Это из числа тех словоформ, которые Яндекс не поправляет как ошибочные.

А из тех, что поправляет:

===================

клубоки - страниц 16

орёлы - страниц 27

===================

Разницы, в принципе, никакой. И страниц, как мы видим, негусто. То есть, никто так, действительно, не изъясняется. Но в то же время:

===================

"афтар" - страниц 592517

"арфаграфический славарь" - страниц 1 885

===================

Вот это уже социальное явление. Так люди реально говорят и пишут - и Яндекс с этим считается.

А то, о чём я писал - это псевдословоформы, в человеческой речи и на письме практически не встречающиеся. Однако, Яндекс их понимает как верные.

U
На сайте с 19.03.2006
Offline
101
Utr
#19

Кстати, если сделать запрос "заплатить старые пени", то человеку, интересующемуся, как расплатиться с долгами, Яндекс расскажет, в первую очередь, про старые пни. Так что, сервис не больно-то хорош.

A
На сайте с 10.01.2005
Offline
106
#20

Utr, на самом деле Яндекс просто забегает вперед. Объективная тенденция русского языка -появление гласных в именительном падеже (ветр -ветер). Я просто экстраполирует ее на родительный.:) Что касается пени, то она в именительном падеже легко распознается, и пенять Я на то, что в родительном он путает ее с пнями, слишком жестко. Я на нынешней стадии уже умеет выделять морфемы, именно поэтому, он, как и другие подростОки, допускает ошибки. Невинные, т.к. они действительно несвойственны речи. Вот если бы он писал "переспектива", я бы его устыдил.

Сайты для людей - не выдумка, а быль. Если считать архитекторов и дизайнеров людьми:)Целевая реклама для целевой группы.
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий