Используйте алгоритм ранжирующей функции, чтобы получить число в обучающей базе - Яндекс

Снежинск - новый алгоритм ранжирования

Timichlm · 2026-07-01T11:07:19.0000000Z

На buki.yandex.ru выложена новая версия поисковой программы "Снежинск", в которой изменен подход к построению ранжирования Яндекса. Нам удалось создать более точную и гораздо более сложную математическую модель, которая привела к существенному приросту в качестве поиска. Благодаря переработке архитектуры ранжирования (англ., pdf) в поиске удалось реализовать учет нескольких тысяч поисковых параметров для одного документа. Новая формула работает в России, включая все города с локализованным ранжированием, но пока не применяется к ранжированию в Украине, Казахстане, Беларуси. Продолжая хорошую традицию, мы внедрили в "Снежинске" дополнительные региональные факторы, основанные на интересе пользователей к документам. Они позволят повысить точность поиска в 19 городах с локальным ранжированием. Так-то

122

G00DMAN

13 ноября 2009, 12:49

#871

devzev:
Кто ж выставляет эти долевые оценки? Ассесоры? А почему именно 0,3, а не 0,35?

Выставляют точно не асессоры. Оценка асессоров скорее всего входит в оценку релевантности, но не только она. 0.3 - от балды. :)

mhz:
Ну это я, вспомнив, какой-то из докладов РОМИП — там вроде говорилось о вариантах «Витальный», «Релевантен», «Не релевантен» или как-то так. Не было там шкалы от 0 до 100. Но это не важно же — просто пример.

Не, тут вроде по другому релевантность считается, более сложно.

mhz:
А что вы называете «истинной» релевантностю? Ту, которая получается при обсчёте алгоритмом?
Типа у сайтов из обучающей выборки (те, что для асессоров) — релевантность «асессорная», а у остальных, которых уже обученный алгоритм считает — «истинная»?

Нет. "Истинная" релевантность (хотя может быть "истинная" - не верное название, может "назначенная" или еще как :) ), присваивается каждой паре запрос-документ до начала обучения. Ее значение как-то вычисляется, наверное по хитрой формуле какой-то, на основании оценок асессоров и еще чего-то. И суть обучения - подобрать такой набор параметров для ранжирующей функции, чтобы полученное с помощью функции значение релевантности было как можно ближе к "истинному". Для всех пар "запрос-документ" в обучающей выборке.

mhz:
Если так, то как тогда истинную занизить вручную? Можно только заменить её на другую, асессорную. Запутался что-то, сорри 🙅

Эта "истинная" - не асессорная, просто число в обучающей базе. Его можно как-то менять, или тупо вручную, или как-то хитрее, вариантов много.

mhz:
Так а чем же тогда могут быть обусловлены изменения только в одной тематике? Факторы-то, наверное, по которым такие ГС попадают в серп не связаны с тематикой.

Ну если в обучающею базу внести небольшие изменения, например только по одной выдаче, то в итоге получим изменения как раз по тематике - этой одной выдачи и всех близких к ней, где те же сайты в топах.

wolf:
Именно подобную картину я и предположил вчера в этом топике.

Ага. Но все равно - это лишь гипотеза.

wolf:
Единственно - сомнения в том, будут ли чуть ли не ради каждой новой пары (q,d) в обучающей выборке формулу перестраивать. Хотя, если алгоритм шустрый - why not?

Да, не известно. Наверное могут и для одной пары пересчитать, но скорее всего пока такое не требуется, т.к. постоянно находится много плюх, есть куча инфы для пересчета.

wolf:
Сдается мне, переобучение у них случилось. Несколько тыщ факторов - это ж не хухры-мухры. Теперь собирают выдачу с явными ошибками и включают в обучающую выборку. Чтоб эффект переобучения побороть. В Находке, помню, 2 месяца формулу перенастраивали, пока из бук в основной поиск не выложили. Но там так шустро (каждый день) формулу не апгрейдили.

Или недообучение, почему бы и нет. Много параметров - не факт, что плохо. Может как раз это "много" и позволит красиво настроить алгоритм. Масштабное тестирование метода только началось, пока даже не очевидно, насколько верной была идея такого обучения.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

190

mhz

13 ноября 2009, 13:04

#872

G00DMAN:
Нет. "Истинная" релевантность (хотя может быть "истинная" - не верное название, может "назначенная" или еще как ), присваивается каждой паре запрос-документ до начала обучения. Ее значение как-то вычисляется, наверное по хитрой формуле какой-то, на основании оценок асессоров и еще чего-то. И суть обучения - подобрать такой набор параметров для ранжирующей функции, чтобы полученное с помощью функции значение релевантности было как можно ближе к "истинному". Для всех пар "запрос-документ" в обучающей выборке.

Становится немного понятней, спасибо! :)

G00DMAN:
Ну если в обучающею базу внести небольшие изменения, например только по одной выдаче, то в итоге получим изменения как раз по тематике - этой одной выдачи и всех близких к ней, где те же сайты в топах.

А почему это не было возможным сейчас, во время Арзамаса? Ведь алгоритм тоже обучающийся...

Миниатюрный бультерьер Сахарок (http://www.bule4ka.ru/) — СДЛ о собачках. Вечные ссылки — безопасный способ продвижения и заработка. (http://miralinks.ru/users/registration/from:163)

148

_Ivan_

13 ноября 2009, 13:06

#873

G00DMAN:
Масштабное тестирование метода только началось, пока даже не очевидно, насколько верной была идея такого обучения.

К сожалению о том, что идея верна яндексоиды заявли уже после первой итерации обучения. Т.е по их критериям полноты и точности первая наиболее сырая версия Снежинска уже превосходила Арзамас.

Так что надется на долгие доработки нельзя.

Ходят слухи, что деньги Практическое определение коммерческого сайта ISPmanager -> FastPanel простой

27

Rokfeller

13 ноября 2009, 13:07

#874

Ищу "Снегоуборщик Murray 6271200X61"

1 - место - _snegouborshik.ru/product/?id=51109

2 - место - _rumag.ru/product/?id=51109

Это два сайта одной компании, даже ID у товаров одинаковое! Зачем оно здесь? :(

Оптимизатор в Интернете - как Промысловый охотник в Сибири

V

117

Voznesensky

13 ноября 2009, 13:37

#875

Похоже опять что-то крутят. 2 сайта по важному запросу из топ5 да и вообще из выдачи куда-то делись ... несколько сайтов конкурентов тоже пропали. Сейчас выдача хоть на что-то похожа, когда увидел буки сразу после включния - у меня начался запой, вчера первый день трезвости.

[Удален]

13 ноября 2009, 13:44

#876

Извините, спрошу у осведомленных - апдейт в основной выдаче Яндекса был или нет?

[Удален]

13 ноября 2009, 13:45

#877

выдачу просто плющит...это жесть..

50

Руфат

13 ноября 2009, 13:47

#878

В целом выдача на много лучше, чем при запуске.

Но в выдаче, по некоторым запросам Питер выше, хотя поиск идет по москве...

Осталось только наблюдать и ждать запуска алгоритма "Снежинск" в основной выдаче.

С уважением, Бахтиозин Руфат.

27

Rokfeller

13 ноября 2009, 13:52

#879

falkhan:
Извините, спрошу у осведомленных - апдейт в основной выдаче Яндекса был или нет?

Нет, к сожалению!

1

Hugo Boss

13 ноября 2009, 13:57

#880

Снежинск до Тюмени докатился. Подвижки есть.

С позиций на позицию:

56 - 7, 11 - 3, 6 - 2, 7 - 3, 40 - 8 и т.п.

Только в плюс.

Что делать, чтобы попасть в ответы Google Bard

Курс биткоина превысил $50 тысяч

Снежинск - новый алгоритм ранжирования