О нейросетях, градиентном бустинге и релевантности

Виктор Петров
На сайте с 05.01.2020
Offline
240
765

Тема о пригорании, и только для тех, кто работает в SEO. ПО сути - про Яндекс эта тема.
Коллеги, поясните, как так-то? Вот у нас Гоша и Яша. Оба - дебиловаты, примерно как девочка 9 лет, которую отдали на факультет психологии, ей 9 лет, а там мужской член обсуждают и его влияние на мировосприятие. По итогам - поиск фактически становится бесполезным.
Но есть нюансы.
Ну вот для примера: пошёл я сегодня в книжный и таки купил томину с почти всем "Ведьмаком" Сапковского. Пришёл домой, дай, думаю, "мандыхора" найду - я перевод Вайсброта наизусть знаю не весь, но многое. Это воспроизводится в книге ровно в таком виде. И таки вот что мне показывает информационный поиск, усиленный семантическим, работающим на нейросетях с градиентным бустингом (BERT, YATI):

А потом вот:

Ну и вот (С).
Суть вопроса: а накидайте примеров таких траблов, если замечаете. Из любого сегмента: коммерция, информационка, неважно. Думаю, не я один с этим сталкиваюсь регулярно. Пусть будет как база для понимания момента.


SmileP
На сайте с 18.02.2010
Offline
386
#1
Виктор Петров :
мандыхор

Это что?

Похоже ПС, не считают его за слово.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#2
SmileP #:
Похоже ПС, не считают его за слово.

Гугл-то понял при всем косячье. Хваленый CatBoost Яндекса - не справился.
"Мандыхор" - это псевдонародная огласовка слова "мантикора", у Сапковского используется. Думаю, 3-5 лет назад мне показали бы фрагмент из книги (коий я и искал).

Gossudar
На сайте с 19.04.2008
Offline
138
#3

Теперь и Яндекс знает про слово ))


Антоний Казанский
На сайте с 12.04.2007
Offline
631
#4
Виктор Петров :
для тех, кто работает в SEO
Виктор Петров :
И таки вот что мне показывает информационный поиск, усиленный семантическим, работающим на нейросетях с градиентным бустингом (BERT, YATI):

Виктор, помогите Яндексу проиндексировать нужный текст.

Он же старается :)

Gossudar #:
Теперь и Яндекс знает про слово ))

Здесь.

Кто ж если не SEO-шники, а ли мы не мы?! :))

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Виктор Петров
На сайте с 05.01.2020
Offline
240
#5
Антоний Казанский #:

Виктор, помогите Яндексу проиндексировать нужный текст.

Он же старается :)

Текст был в индексе долгие годы и на пачке ресурсов - хотя, вероятно, его оттуда удалили по копирастическим причинам (или просто закрыт бесплатный доступ на соответствующих ресурсах).
Мне пока ясно вот что: у словца явно нет ПФ и тех метрик, что важны для Яндекса. Кроме того, все текстовые метрики у него поменялись на корню: он оценивает запросы изначально как потенциальные слова с коммерческим интентом, цитаты и базовые векторы - в игнор. А до способности понимать смысл запроса там совсем-совсем далеко. Поиск информации в библиотеке сменился каким-то рекламным каталогом (или газетой "Из рук в руки").

Антоний Казанский
На сайте с 12.04.2007
Offline
631
#6
Виктор Петров #:
Текст был в индексе долгие годы и на пачке ресурсов - хотя, вероятно, его оттуда удалили по копирастическим причинам (или просто закрыт бесплатный доступ на соответствующих ресурсах).

Ну вот поэтому Яндекс про это слово и забыл :)


Виктор Петров #:
Мне пока ясно вот что: у словца явно нет ПФ и тех метрик, что важны для Яндекса.

Думаю, дело в семантических связях слова. Изначально (когда Яндекс про него не знает ничего), то оно воспринимается как имя собственное и если словарные и морфологические изменения и связи отсутствуют, то Яндекс и не может увязать его с чем либо, для него это самобытная уникальная последовательность букв. 


Виктор Петров #:
А до способности понимать смысл запроса там совсем-совсем далеко. Поиск информации в библиотеке сменился каким-то рекламным каталогом (или газетой "Из рук в руки").

Полагаю, всё определяет степень использования слова и именно практические случаи определяют его чисто информационную (скажем так - литературную) или коммерческую принадлежность. 

Посему, какая практика использования и применения, таков и результат. Без накопленной статистики алгоритм определить назначение слова не может.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#7

Немножко дичи из свеженького. Растут возможности искусственного интелекат, шыряца!


Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий