Фильтры Яндекса и машинное обучение

12
T
На сайте с 05.04.2006
Offline
97
1836

Вкратце устройство поиска Яндекса описывается следующим образом. У Яндекса есть несколько асессоров – это люди, которые оценивают пары «страница» - «запрос» по критериям «Витальный», «Полезный», «Релевантный+», «Релевантный-» «Нерелевантный», «Спам» и «Не про то».

Для каждой такой страницы Яндекс автоматически считает набор параметров, которые относятся как к странице и запросу так и ко всему сайту целиком. Например, для конкретной страницы: «количество входящих ссылок на эту страницу», «размер страницы», для запроса: «процент вхождений запроса на страницу». Для всего сайта: «наличие в Яндекс Каталоге», «общее число входящих ссылок». Таких параметров по данным Яндекса уже больше 1000.

Все эти данные по всем страницам и оценкам асессоров сводятся в одну большую таблицу*.

Таблица выглядит как-то так:

«Параметр1 для страницы 1» «Параметр2 для страницы 1» …. «ПараметрN для страницы 1» «Оценка асессора 1»

«Параметр1 для страницы 2» «Параметр2 для страницы 2» …. «ПараметрN для страницы 2» «Оценка асессора 2»
….
«Параметр1 для страницы M» «Параметр2 для страницы M» …. «ПараметрN для страницы M» «Оценка асессора M»

Здесь N ~ 1000, M ~ 1000000.

Далее эта «таблица обучения» подается на вход алгоритма машинного обучения, с целью получить «модель поиска».

Что делает эта модель? Даешь ей на вход строчку вида:

«Параметр1 для новой страницы» «Параметр2 для новой страницы» …. «ПараметрN для новой страницы»

модель по этим данным предсказывает «оценку асессора» с некоторой вероятностью близкой к 100%.

Теперь предположим, вы ввели в поиск запрос: «купить кондиционер в Москве». Сначала Яндекс выбирает общий набор страниц, который вообще соответствуют этому запросу. Далее для каждой этой страницы и этого запроса считает набор из N параметров. Пропускает их через модуль и получает для каждой страницы предсказание «Оценки асессора». Подозреваю что страница с оценками «Нерелевантный», «Спам» и «Не про то» сразу исключаются из выдачи. Остальные сортируются, что бы «Витальные» оказались как можно выше, за ними «Полезные», потом «Релевантные+» и в конце видимо уже за пределами ТОП10 «Релевантные-»

Фильтр Минусинск

Как с таким подходом к поиску ввести новый фильтр? Да очень просто. Для этого достаточно слегка поправить таблицу, полученную от асессоров перед обучением.

Пусть у страницы есть два следующих параметра «общее количество ссылок на домен» = A, «количество ссылок с коммерческими SEO-анкорами на домен» = B. Введем коэффициент K = B/A, теперь установим ему какое-то значение, например «0.5» (или 50%). Далее пройдемся по таблице обучения скриптом, который делает следующее преобразование, если K у страницы больше 50%, сделаем следующую замену «Витальный» -> «Полезный», «Полезный» -> «Релевантный+», «Релевантный+» -> «Релевантный-», «Релевантный-» -> «Не про то».

Обучаем нашу модель по этой таблице. Всё фильтр введен. Страницы, у которых K больше 0.5 будут в целом по всем запросам понижаться в выдаче.

Фильтр «снижаем трафик за продажные ссылки»

Работает аналогично. Параметры, которые используются, вероятно «Количество исходящих ссылок с сайта» и «Количество исходящих анкорных SEO-ссылок с сайта».

Пару фактов:

1) Поскольку модель носит вероятностный характер, то точной границы коэффициента K после которой включается фильтр, нет. Это индивидуально для каждого сайта.

2) Подозреваю, что выйти из под фильтра можно не только сняв СЕО ссылки, но и просто увеличив число естественных ссылок.

Написано по своему опыту работы с машинным обучением и тем как бы поступил я если бы мне надо было ввести такие фильтры по запросу от начальства. ) Есть мысли, дополнения, критика?

* - это немного упрощенная модель, судя по всему в Матрикс.Нет Яндекс использует несколько таблиц, разбитых по какому-то параметру, но для понимания принципа это не важно.

datot
На сайте с 09.07.2007
Offline
987
#1
Turbo:
Вкратце устройство поиска Яндекса описывается следующим образом. У Яндекса есть несколько асессоров – это люди, которые оценивают пары «страница» - «запрос» по критериям .

Больно с Луны падать?

Извините, что за бред вы написали?

Вы вчерашнее выступление Гладких смотрели?

Яндекс давно работает по ...

Ладно, Вам все равно :)

Как Вас называть? Оператор мАшинного обучения?

Обучение происходит по уже существующим параметрам на основе уже имеющихся данных, накопленных еще ДО использования нейро. Ранжирование имеющееся по состоянию на ввод первого машинного алго стало первично эталонным, на основе чего и производились следующие расчеты.

Если первый вариант матрикснета был ограничен в кол-ве вводных данных, то сейчас условия обучения изменились кардинально. И это произошло в сентябре ПРОШЛОГО года.

В работе нейро людей уже нет. Есть ручная выборка и ручная порка, а все остальное Ваши придумки. Какие таблицы?

Продвижение по ПФ. Пакет от 40 запросов (https://smit.ru/prodvigsite)
T
На сайте с 05.04.2006
Offline
97
#2
datot:

Яндекс давно работает по ...

По чему? Мне реально интересно. Принципы машинного обучения за последние несколько лет существенно не менялись. Поменялись только средства (например XGBoost появился, который все юзают теперь). Чем заменили асессоров?

Я когда то участвовал в конкурсе от Яндекса (оказывается аж 6 лет прошло...). И там как раз были таблицы:

https://academy.yandex.ru/events/imat/2009/

datot
На сайте с 09.07.2007
Offline
987
#3
Turbo:
По чему? Мне реально интересно. Принципы машинного обучения за последние несколько лет существенно не менялись. Чем заменили асессоров?

Таблицами :) Каких асессоров. Это было в 2009 - когда "расстреляли" последнего. Хватит нести пургу, чес слово. :)

T
На сайте с 05.04.2006
Offline
97
#4
datot:
Таблицами :) Каких асессоров. Это было в 2009 - когда "расстреляли" последнего. Хватит нести пургу, чес слово. :)

Так я и спрашиваю чем заменили, есть ссылка на базовые принципы как сейчас модель Яндекса устроена? Или просто вкратце своими словами опишите.

datot
На сайте с 09.07.2007
Offline
987
#5
Turbo:
Так я и спрашиваю чем заменили, есть ссылка на базовые принципы как сейчас модель Яндекса устроена? Или просто вкратце своими словами опишите.

Ну уж точно не на этом форуме обсуждать "модель Яндекса устроена" :) Там все просто, но абсолютно не понятно для непосвященных

А напишите Платону :) пусть расскажет. А я не лектор

T
На сайте с 05.04.2006
Offline
97
#6
datot:
Ну уж точно не на этом форуме обсуждать "модель Яндекса устроена" :) Там все просто, но абсолютно не понятно для непосвященных
А напишите Платону :) пусть расскажет. А я не лектор

А где обсуждать, как не на форуме посвященному Яндексу? )

datot
На сайте с 09.07.2007
Offline
987
#7
Turbo:
А где обсуждать, как не на форуме посвященному Яндексу? )

Пару тройку лет назад я бы и развил бы эту и другую тему, но сегодня, когда на серче пишут 10-12 чел, причем не высшего уровня, т.е. обсудить тему не с кем, то глупо обсуждать серьезные вещи. А просто пофлудить, ща придут умельцы :)

Сама заявленная тема настолько обросла паутиной и плесенью, что обсуждать нечего, т.к. реалии современного механизма (продукта) определения качества и дальнейшего ранжирования сайтов сегодня не известны и не подвластны даже самим яндексоидам.

T
На сайте с 05.04.2006
Offline
97
#8

Кстати в тему. Год назад Яндекс проводил конкурс по "персонализированному поиску":

https://www.kaggle.com/c/yandex-personalized-web-search-challenge

Судя по разнице между победителем и "дефолтным" поиском. 0.80725 и 0.79133 соответственно, существенного успеха они не достигли. ) Но вероятно модель победителей сейчас используется.

И вообще Яндекс частенько проводит конкурсы по машинному обучению. Вот совсем свежее:

https://inclass.kaggle.com/c/review-it

https://inclass.kaggle.com/c/competition-1-yandex-ekb-shad-autumn-2015/rules

r27
На сайте с 11.06.2012
Offline
105
r27
#9
datot:
В работе нейро людей уже нет. Есть ручная выборка и ручная порка, а все остальное Ваши придумки. Какие таблицы?

Если нечего по теме сказать, то зачем сюда лезть? Все кругом глупые, один datot самый умный и ФСЕ знает про алгоритмы яндекса. А чуть вопрос про конкретику, то сразу это не тема для этого форума.

Здесь не курилка, а про яндекс раздел, если чо.

Никого не консультирую и ничего не оптимизирую.
LEOnidUKG
На сайте с 25.11.2006
Offline
1591
#10

Turbo, datot просто троллит, ему делать нефига, а умное писать не умеет.

r27, просто в игнор и всё. Нервы дороже :)

А вы Turbo, выкладывайте ещё материал.

✅ Трастовых площадок под размещение статей и ссылок. Опыт 12 лет! ( https://searchengines.guru/ru/forum/675690 ) ⭐ Купить вечные трастовые ссылки для сайта ( https://getmanylinks.ru/?srh ) ⭐ Ускорение ваших сайтов (WP, Opencart и др.) + Настройка сервера ( https://searchengines.guru/ru/forum/997205 )
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий