- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Utr,
1. Яша - поисковая система, а не орфографический словарь.
2. Яша - это набор программ, которые пытаются дать самый адекватный ответ на поставленный вопрос.
3. Основной критерий поиска - найти, то что просили. При этом при всех каверзах русского языка, он подбирает то, чего больше в сети (он зеркало сети) и не обязательно граматно.
Два классических примера
Яша http://www.yandex.ru/yandsearch?text=%E0%F0%F4%E0%E3%F0%E0%F4%E8%F7%E5%F1%EA%E8%E9+%F1%EB%E0%E2%E0%F0%FC
Гуглер http://www.google.ru/search?hl=ru&q=%D0%B5%D0%B1%D0%BB%D0%B0%D0%BD&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=
Любая ПС должна обрабатывать язык ровно на столько, на сколько это полезно для поиска, ибо есть правило - человек думает, машина работает.
Яша обрабатывает русский язык, пытаясь привести слова, которые знает к начальной форме. Этого в полне достаточно.
Это не совсем так.
На самом деле, любая ПС, претендующая на звание "русской", должна "понимать" законы, по которым образуются слова именно в русском языке. И вести себя - да - как орфографический словарь. И, при обнаружении ошибки при написании "сАбака", корректно подсказывать: "Опечатка? возможно, имелось в виду: «собака»".
Собственно, кажется, именно Яндекс и ввёл первым такой подход к делу, обрабатывая запрос не "так, как полезно для поиска", а так, как полагается по-русски. При этом, деликатно указывая безграмотному человеку на возможную ошибку и направляя на истинный путь. И это есть комильфо.
Что же касается "арфаграфического славаря" и прочих "афтаров", то Яндекс, действительно, включил определенное количество выражений из сленга "падонкоф" в свою словарную базу - реагируя на реалии сегодняшнего дня. Но это не имеет отношения к общим принципам словообразования.
Если внимательно посмотреть на приведенный мною текст, то можно заметить, что Яндекс "не дружит" конкретно с беглыми гласными. Неправильные запросы, относящиеся к другим разделам русского языка, он обрабатывает корректно, указывая на возможные ошибки. А вот с беглыми гласными - то так, то эдак. Характерный пример - слова "козёл, осёл, орёл". В учебнике русского языка эти слова стоят в едином словарном ряду. Специально отобраны и поставлены - иллюстрировать правило склонения "козлы, ослы, орлы". Однако же, если Яндекс вполне допускает безграмотное склонение "козёлы" и "осёлы", то орла он в обиду не даст и запрос "орелы" сразу же поправит. Яндекс разрешит окончание урка, но не поймёт истечение срка. И если на клубоки Яндекс ругается, то вот по части грибоков очень даже благосклонен.
Что, возможно, многое объясняет.
Собственно, кажется, именно Яндекс и ввёл первым такой подход к делу, обрабатывая запрос не "так, как полезно для поиска", а так, как полагается по-русски. При этом, деликатно указывая безграмотному человеку на возможную ошибку и направляя на истинный путь. И это есть комильфо.
Я Вам привел пример. Яша и не попытался вносить в коррективы этого, ибо именно так часто втречается в сети.
Есть два подхода к любому вопросу,
- с точки зрения логики
- с точки зрения существующих правил.
Есть много людей, которые считают что споры вокруг написания слова "парашют" могут серьезно помочь великому и могучему...
Работа ПС не учить людей, а искать то, что просят, используя свою "логику". Если люди этого хотят - это нужно дать. Для тонкостей и нюансов языка существует очень много сайтов иных. Зачем поисковику заниматься не свойственным ему делом. Усложнеие алгоритмов всгда ведет к неприятным последствиям.
PS Чтобы появился реальный продукт(программный), который бы имел 90% точность определения ошибок, нужно чтобы языковеды, программисты и математики смогли некоторое время говорить на одном языке. пока это не удается.
T.R.O.N,
Ваш пример - это исключение, сделанное для жаргона "падонкоф" как для социального явления. Это исключение специально оговорено Яндексом. А есть словоформы, которыми вообще практически никто не пользуется - наподобие "сыноков" и "дочеков". Но к "сынокам" у Яндекса отношение одно, а к "дочекам" ровно противоположное.
Собственно, я согласен с Вами в том, что 100% точности определения ошибок Яндекс пока не достиг. Возможно, он к этому стремится. Но смысл всего выступления был таков - на данный момент всерьёз исследовать аспекты "понимания" Яндексом морфологии - малоперспективное занятие. Потому что при таких исследованиях мы предполагаем, к примеру, что в русском языке 6 падежей, а Яндекс может располагать числом и поболее.
Потому что при таких исследованиях мы предполагаем, к примеру, что в русском языке 6 падежей, а Яндекс может располагать числом и поболее.
имхо, Яндекс, как система механистическая, исскуственного происхождения, сама создавать ни чего не может. Максимум ее возможностей - отражать, с той или иной степенью точности, окружающую ее реальность. А если реальность на сегодняшний день такова, то пенять можем только на себя.
Слова "матерщынник" и "крамольник" из известной песни Вл. Высоцкого, ни одина ПС исправлять не будет... Имхо, конечно...
Собственно, я согласен с Вами в том, что 100% точности определения ошибок Яндекс пока не достиг. Возможно, он к этому стремится.
Скорее всего, не стремится. Ему это не нужно.
Но смысл всего выступления был таков - на данный момент всерьёз исследовать аспекты "понимания" Яндексом морфологии - малоперспективное занятие.
Есть факт, яша умеет "переколдовывать" фразы из запроса и из контента сайта, устанавливая некое соответствие. Он это делает, исходя из логики поиска, и "накопленного опыта". Это нужно понимать.
Ведь поиск- это искуство. =)))
Яша http://www.yandex.ru/yandsearch?text...E0%E2%E0%F0%FC
Гугл http://www.google.ru/search?hl=ru&q=%D0%B0%D1%80%D1%84%D0%B0%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9+%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=
ради интереса посмотрел
А что Вы хотели увидеть по данным запросам? матрацы? :)
Яндекс исправляет наши же ошибки.
Разве плохо запросить подростоки и получить подростков в выдаче?
Это не ошибка Яндекс, это сервис. :)
Хм.
А почему как бы само собой разумеется, что "люди так говорят" - так, как я проиллюстрировал? Люди так не говорят. Попытки говорить подобным образом строгие училки пресекают ещё в третьем классе и это крепко вбивается в подкорку на всю жизнь. К "падонкофскому" сленгу данные слова тоже не относятся. Кто-нибудь реально слышал, как ваши окружающие (или, хотя бы, подростки на улице) говорят про "сыроки", "грибоки" и "клубоки"? Лично я - нет.
Но можно проверить - насколько такие словоформы вообще распространены.
Поиск с точным соответствием запросу даёт количество страниц, на которых данные слова встречаются именно в приведённой мною форме:
===================
старые пени - страниц 37
сыроком - страниц 38
сыноки - страниц 32
осёлы - страниц 11
петушоки - страниц 2
счастливецем - 1 (и та с данной свежепроиндексированной темы)
===================
Это из числа тех словоформ, которые Яндекс не поправляет как ошибочные.
А из тех, что поправляет:
===================
клубоки - страниц 16
орёлы - страниц 27
===================
Разницы, в принципе, никакой. И страниц, как мы видим, негусто. То есть, никто так, действительно, не изъясняется. Но в то же время:
===================
"афтар" - страниц 592517
"арфаграфический славарь" - страниц 1 885
===================
Вот это уже социальное явление. Так люди реально говорят и пишут - и Яндекс с этим считается.
А то, о чём я писал - это псевдословоформы, в человеческой речи и на письме практически не встречающиеся. Однако, Яндекс их понимает как верные.
Кстати, если сделать запрос "заплатить старые пени", то человеку, интересующемуся, как расплатиться с долгами, Яндекс расскажет, в первую очередь, про старые пни. Так что, сервис не больно-то хорош.
Utr, на самом деле Яндекс просто забегает вперед. Объективная тенденция русского языка -появление гласных в именительном падеже (ветр -ветер). Я просто экстраполирует ее на родительный.:) Что касается пени, то она в именительном падеже легко распознается, и пенять Я на то, что в родительном он путает ее с пнями, слишком жестко. Я на нынешней стадии уже умеет выделять морфемы, именно поэтому, он, как и другие подростОки, допускает ошибки. Невинные, т.к. они действительно несвойственны речи. Вот если бы он писал "переспектива", я бы его устыдил.