Снежинск - новый алгоритм ранжирования

G00DMAN
На сайте с 19.04.2008
Offline
122
#871
devzev:
Кто ж выставляет эти долевые оценки? Ассесоры? А почему именно 0,3, а не 0,35?

Выставляют точно не асессоры. Оценка асессоров скорее всего входит в оценку релевантности, но не только она. 0.3 - от балды. :)

mhz:
Ну это я, вспомнив, какой-то из докладов РОМИП — там вроде говорилось о вариантах «Витальный», «Релевантен», «Не релевантен» или как-то так. Не было там шкалы от 0 до 100. Но это не важно же — просто пример.

Не, тут вроде по другому релевантность считается, более сложно.

mhz:
А что вы называете «истинной» релевантностю? Ту, которая получается при обсчёте алгоритмом?
Типа у сайтов из обучающей выборки (те, что для асессоров) — релевантность «асессорная», а у остальных, которых уже обученный алгоритм считает — «истинная»?

Нет. "Истинная" релевантность (хотя может быть "истинная" - не верное название, может "назначенная" или еще как :) ), присваивается каждой паре запрос-документ до начала обучения. Ее значение как-то вычисляется, наверное по хитрой формуле какой-то, на основании оценок асессоров и еще чего-то. И суть обучения - подобрать такой набор параметров для ранжирующей функции, чтобы полученное с помощью функции значение релевантности было как можно ближе к "истинному". Для всех пар "запрос-документ" в обучающей выборке.

mhz:
Если так, то как тогда истинную занизить вручную? Можно только заменить её на другую, асессорную. Запутался что-то, сорри 🙅

Эта "истинная" - не асессорная, просто число в обучающей базе. Его можно как-то менять, или тупо вручную, или как-то хитрее, вариантов много.

mhz:
Так а чем же тогда могут быть обусловлены изменения только в одной тематике? Факторы-то, наверное, по которым такие ГС попадают в серп не связаны с тематикой.

Ну если в обучающею базу внести небольшие изменения, например только по одной выдаче, то в итоге получим изменения как раз по тематике - этой одной выдачи и всех близких к ней, где те же сайты в топах.

wolf:
Именно подобную картину я и предположил вчера в этом топике.

Ага. Но все равно - это лишь гипотеза.

wolf:
Единственно - сомнения в том, будут ли чуть ли не ради каждой новой пары (q,d) в обучающей выборке формулу перестраивать. Хотя, если алгоритм шустрый - why not?

Да, не известно. Наверное могут и для одной пары пересчитать, но скорее всего пока такое не требуется, т.к. постоянно находится много плюх, есть куча инфы для пересчета.

wolf:
Сдается мне, переобучение у них случилось. Несколько тыщ факторов - это ж не хухры-мухры. Теперь собирают выдачу с явными ошибками и включают в обучающую выборку. Чтоб эффект переобучения побороть. В Находке, помню, 2 месяца формулу перенастраивали, пока из бук в основной поиск не выложили. Но там так шустро (каждый день) формулу не апгрейдили.

Или недообучение, почему бы и нет. Много параметров - не факт, что плохо. Может как раз это "много" и позволит красиво настроить алгоритм. Масштабное тестирование метода только началось, пока даже не очевидно, насколько верной была идея такого обучения.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
mhz
На сайте с 16.05.2007
Offline
190
mhz
#872
G00DMAN:
Нет. "Истинная" релевантность (хотя может быть "истинная" - не верное название, может "назначенная" или еще как ), присваивается каждой паре запрос-документ до начала обучения. Ее значение как-то вычисляется, наверное по хитрой формуле какой-то, на основании оценок асессоров и еще чего-то. И суть обучения - подобрать такой набор параметров для ранжирующей функции, чтобы полученное с помощью функции значение релевантности было как можно ближе к "истинному". Для всех пар "запрос-документ" в обучающей выборке.

Становится немного понятней, спасибо! :)

G00DMAN:
Ну если в обучающею базу внести небольшие изменения, например только по одной выдаче, то в итоге получим изменения как раз по тематике - этой одной выдачи и всех близких к ней, где те же сайты в топах.

А почему это не было возможным сейчас, во время Арзамаса? Ведь алгоритм тоже обучающийся...

Миниатюрный бультерьер Сахарок (http://www.bule4ka.ru/) — СДЛ о собачках. Вечные ссылки — безопасный способ продвижения и заработка. (http://miralinks.ru/users/registration/from:163)
_Ivan_
На сайте с 14.05.2006
Offline
148
#873
G00DMAN:
Масштабное тестирование метода только началось, пока даже не очевидно, насколько верной была идея такого обучения.

К сожалению о том, что идея верна яндексоиды заявли уже после первой итерации обучения. Т.е по их критериям полноты и точности первая наиболее сырая версия Снежинска уже превосходила Арзамас.

Так что надется на долгие доработки нельзя.

Rokfeller
На сайте с 18.03.2009
Offline
27
#874

Ищу "Снегоуборщик Murray 6271200X61"

1 - место - _snegouborshik.ru/product/?id=51109

2 - место - _rumag.ru/product/?id=51109

Это два сайта одной компании, даже ID у товаров одинаковое! Зачем оно здесь? :(

Оптимизатор в Интернете - как Промысловый охотник в Сибири
V
На сайте с 15.02.2007
Offline
117
#875

Похоже опять что-то крутят. 2 сайта по важному запросу из топ5 да и вообще из выдачи куда-то делись ... несколько сайтов конкурентов тоже пропали. Сейчас выдача хоть на что-то похожа, когда увидел буки сразу после включния - у меня начался запой, вчера первый день трезвости.

[Удален]
#876

Извините, спрошу у осведомленных - апдейт в основной выдаче Яндекса был или нет?

[Удален]
#877

выдачу просто плющит...это жесть..

Руфат
На сайте с 23.02.2009
Offline
50
#878

В целом выдача на много лучше, чем при запуске.

Но в выдаче, по некоторым запросам Питер выше, хотя поиск идет по москве...

Осталось только наблюдать и ждать запуска алгоритма "Снежинск" в основной выдаче.

С уважением, Бахтиозин Руфат.
Rokfeller
На сайте с 18.03.2009
Offline
27
#879
falkhan:
Извините, спрошу у осведомленных - апдейт в основной выдаче Яндекса был или нет?

Нет, к сожалению!

Hugo Boss
На сайте с 21.10.2009
Offline
1
#880

Снежинск до Тюмени докатился. Подвижки есть.

С позиций на позицию:

56 - 7, 11 - 3, 6 - 2, 7 - 3, 40 - 8 и т.п.

Только в плюс.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий