G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
Intelis:
Пример с РБС для Вас не пример?

А что не так с РБС? Сайты выше в выдаче не релевантны запросу? Или по "раскрутка сайта" bdbd должен быть в топе, потому что так привычнее? ;)

Intelis:
Просто "все плохо" не аргумент, конечно, а вот с указанием критерия провала на десятки позиций сайтов по запросам, ставших для них чуть ли не "витальными" ввиду силы и локальной известности их брендов потребителям - по-моему, аргумент.

А как Вам вариант, что таких "критериев провала на десятки позиций" теперь может и не быть? :D

Intelis:
Безусловно разработчикам виднее что в выдаче стало лучше (исходя из поставленных перед ними целей), но при этом делать выдачу объективно хуже по ряду факторов, тоже не ясно зачем.

Выдача пока сыровата, все может десять раз поменяться, но глобального "объективно хуже" что-то не видно. Хотя у меня несколько высокобюджетных запросов немного просело - вот по ним выдача в буках действительно говно, да. :D

G00DMAN добавил 16.11.2009 в 02:13

jorevo:
Ну вот взять к примеру мебель на заказ - регион "Москва и область"... 4-е место питерский сайт, 6-е украинский. Так и надо?

Так не надо, а что мешает написать об этом в форму обратной связи? ;)

Fresher:
G00DMAN,
Не совсем понятно только как в процессе оценки учитывается ссылочный массив и его качество. Перед асессорами полагаю такая задача не стоит? и учет они ведут только по внутренним критериям? а уже ссылочное влияние добавляется потом.. поправьте меня если ссылочное уже есть в идеальной оценке запрос-пара

Ссылочное должно уже быть в "истинной" релевантности. Intelis об этом уже написал:

Intelis:
Ссылочный массив никто не оценивает напрямую, по крайней мере из асессоров. Оцениваются результаты поиска и если они проходят проверку положительно, то алгоритм принимает все параметры "хороших" результатов за модель для "хороших" сайтов, таким образом сайты с такими параметрами (внутренними и внешними) ранжируются выше, а алгоритм ПС "обучается".
Intelis:
Рандом конечно маловероятен, но честно говоря усмотреть логику тоже пока не удаеется, более того, она напрочь отсутствует в ряде случаев.

Ну так если в новой формуле несколько сотен реально влияющих факторов на релевантность Вашей страницы и каждый фактор вносит не большую долю, то будет не просто реинжинирить. ;)

Intelis:
1. Беру два сайта, которые двигал по 1 пересекающемуся, хорошему ВЧ запросу, методы одинаковы, внутренние факторы идентичны (домены примерно одного возраста, контент уник. и т.п.), один в буках даже выше, чем в основном поиске, другой в буках на 10-й (!) странице, а в основной выдаче тоже в топе. Сайты не аффилированы, разных контор.

Такого рода проблемы были всегда. Возьмите любую крупную контору - сколько % у них не выходит в топ? На самом деле совсем не мало, хотя методы одинаковые. Конечно разница 1-я/10-я страница дикая, но возможно, что это временно. У меня все, что выпало из топа, из второй полсотни уже вернулось в район 1-3 страниц.

mhz:
А почему это не было возможным сейчас, во время Арзамаса? Ведь алгоритм тоже обучающийся...

А почему не было? Может и было.

_Ivan_:
К сожалению о том, что идея верна яндексоиды заявли уже после первой итерации обучения. Т.е по их критериям полноты и точности первая наиболее сырая версия Снежинска уже превосходила Арзамас.

Так что надется на долгие доработки нельзя.

Надеяться на то, что у кого-то что-то там вернется взад наверное сильно не стоит. Но я немного не то имел ввиду. То, что критериям полноты выдача удовлетворяет - это понятно, но дело ведь не только в этом. Возникнет куча локальных проблем с конкретными выдачами, типа вот этого в выдаче быть не должно, а это - должно попасть. Эти проблемы будут требовать переобучения алгоритма и вполне возможно, что в какой-то момент наступит "переполнение", любое улучшение одной выдачи будет приводить к ухудшению многих других. Т.е. проблемы с какими-то конкретными выдачами нужно будет решать, а решения нет. Возможно таких ситуаций и не будет, т.к. методика обучения удачная изначально, возможно они будут, но их можно решать немного смещая "истинные" релевантности в обучающей выборке или еще как-то - пока это не известно, время покажет.

devzev:
Кто ж выставляет эти долевые оценки? Ассесоры? А почему именно 0,3, а не 0,35?

Выставляют точно не асессоры. Оценка асессоров скорее всего входит в оценку релевантности, но не только она. 0.3 - от балды. :)

mhz:
Ну это я, вспомнив, какой-то из докладов РОМИП — там вроде говорилось о вариантах «Витальный», «Релевантен», «Не релевантен» или как-то так. Не было там шкалы от 0 до 100. Но это не важно же — просто пример.

Не, тут вроде по другому релевантность считается, более сложно.

mhz:
А что вы называете «истинной» релевантностю? Ту, которая получается при обсчёте алгоритмом?
Типа у сайтов из обучающей выборки (те, что для асессоров) — релевантность «асессорная», а у остальных, которых уже обученный алгоритм считает — «истинная»?

Нет. "Истинная" релевантность (хотя может быть "истинная" - не верное название, может "назначенная" или еще как :) ), присваивается каждой паре запрос-документ до начала обучения. Ее значение как-то вычисляется, наверное по хитрой формуле какой-то, на основании оценок асессоров и еще чего-то. И суть обучения - подобрать такой набор параметров для ранжирующей функции, чтобы полученное с помощью функции значение релевантности было как можно ближе к "истинному". Для всех пар "запрос-документ" в обучающей выборке.

mhz:
Если так, то как тогда истинную занизить вручную? Можно только заменить её на другую, асессорную. Запутался что-то, сорри 🙅

Эта "истинная" - не асессорная, просто число в обучающей базе. Его можно как-то менять, или тупо вручную, или как-то хитрее, вариантов много.

mhz:
Так а чем же тогда могут быть обусловлены изменения только в одной тематике? Факторы-то, наверное, по которым такие ГС попадают в серп не связаны с тематикой.

Ну если в обучающею базу внести небольшие изменения, например только по одной выдаче, то в итоге получим изменения как раз по тематике - этой одной выдачи и всех близких к ней, где те же сайты в топах.

wolf:
Именно подобную картину я и предположил вчера в этом топике.

Ага. Но все равно - это лишь гипотеза.

wolf:
Единственно - сомнения в том, будут ли чуть ли не ради каждой новой пары (q,d) в обучающей выборке формулу перестраивать. Хотя, если алгоритм шустрый - why not?

Да, не известно. Наверное могут и для одной пары пересчитать, но скорее всего пока такое не требуется, т.к. постоянно находится много плюх, есть куча инфы для пересчета.

wolf:
Сдается мне, переобучение у них случилось. Несколько тыщ факторов - это ж не хухры-мухры. Теперь собирают выдачу с явными ошибками и включают в обучающую выборку. Чтоб эффект переобучения побороть. В Находке, помню, 2 месяца формулу перенастраивали, пока из бук в основной поиск не выложили. Но там так шустро (каждый день) формулу не апгрейдили.

Или недообучение, почему бы и нет. Много параметров - не факт, что плохо. Может как раз это "много" и позволит красиво настроить алгоритм. Масштабное тестирование метода только началось, пока даже не очевидно, насколько верной была идея такого обучения.

mhz:
То есть, это означает, что они могут убирать сайты вручную и успешно делают это? Например, могут взять святок нашумевший, отдать асессорам на «более вдумчивую проверку», асессоры поставят ему «не релевантен» и данные пойдут алгоритму на обучение? Я правильно понял?

Ну можно мягче, зачем сразу "не релевантен". Если "истинная" релевантность лежит в интервале [0..1], а релевантность у святок была например 0.6 (что давало топ-1, но при этом его могло не быть в обучающей выборке), то можно занизить "истинную" до 0.3 и добавить в обучалово. Ну это как вариант легкого тюнинга топа.

mhz:
А разве данные, полученные даже при оценке сайтов одной тематики не экстраполируются на общие правила алгоритма? Имхо, это было бы правильно (убрать, например, святок и ему подобные из всех тематик, а не из каждой по отдельности — тематик-то куча).

Если "ему подобные" попали в топы по тем же причинам, то они могут так же убраться, да. Фишка алгоритма в том, что не нужно думать об этих причинах, проще добавить в обучающую выборку новых данных и пересчитать. Считается-то влет. :)

wolf:
Квадрат разности я там вижу, как один из примеров функции потерь (Examples of loss functions).

Между тем квадрат разности является наиболее удобным критерием для минимизации невязки в задачах аппроксимации. Учитывая, что на каждой итерации вычисляется градиент, то лучше критерия чем квадрат разности не придумаешь.

wolf:
Надо покопаться в этом гриди. Походу, на буках обновили формулу-то. Витать, шустрый обучающий алгоритм.

Именно в шустрости и прикол этого алгоритма. И, кстати, про "апдейты по тематике" - сейчас на буках это теоретически возможно, если асессоры нарабатывают обучающую выборку в "тематическом порядке". Т.е. обработали группу пар запрос-документ, тут же обновили обучающее множество и быстро пересчитали коэффициенты. Такие добавки в обучение не сильно должны повлиять на ранжирование в целом, а в отдельной тематике - могут. Но это только гипотеза, могут ведь обрабатывать не тематиками, а по другому принципу, например добавляя пары (q,d), которые нужно убрать из топа, занижая им "истинную" релевантность. :)

wolf:
TreeNet эволюционировал в MatrixNet? :)

Это алгоритмы одного семейства. MatrixNet по сути является частнымм и несколько упрощенным случаем TreeNet.

wolf:
А что тогда про генетику на РОМИП'2009 вещали? Типа перспектива на будущее?

Генетикой они оптимизировали pfound для РОМИПа. Как они оптимизировали pfound в реале - не известно. :)

wolf:
По классификации "Learning to Rank for Information Retrieval" RankBoost (насколько я понимаю, тот самый гриди) - это 2003 год, а генетический RankGP - таки 2007-й

Забавная классификация, особенно хронология, которая отражает время когда некто додумался использовать давно разработанный алгоритм для решения задачи ранжирования и новое название для этого метода. :)

wolf:
Хм... А зачем сравнивать метрику с алгоритмом?

А никто и не сравнивал. Я имел ввиду тот факт, что в описанном жадном алгоритме нет места для pfound. Если говорить о жадном алгоритме, как об упрощенном заголовке снежинской пдфки, то, применительно к алгоритму ранжирования он используется лишь как метод определения параметров регрессионного уравнения, аппроксимирующего функцию релевантности документа относительно запроса fr, где критерием выступает минимум суммы квадратов разностей обучающих и "восстановленных" значений по всему множеству пар запрос-документ. pfound здесь вообще никуда не уперся. :)

wolf:
(кстати, откуда уверенность, что жадный алгоритм не используется в Арзамасе?).

Уверенности в нашем деле быть не может, все на уровне догадок, копаний, слухов и обрывков фраз. ;)

wolf:
Вместе с тем, я не уверен, что в Арзамасе используется именно pfound.
Предполагаю, что эту метрику использовали чисто для РОМИПа.

Яндексоиды на РОМИПе утверждали, что "используется и давно", отвечая на вопрос типа "че за странная метрика"?

Илья Сегалович мне также говорил об этом, причем была упомянута немного другая вероятность для "vital", не совсем 0,4. ;)

wolf:
Т.к. для поиска по вебу, на мой взгляд, недостаточно максимизации вероятности найти один релеватный документ. Надо обеспечить максимально релевантную выдачу хотя бы в первой десятке.

pfound не есть вероятность найти один релевантный документ, тут нет ограничения одним документом. Если обратиться к формуле вычисления pfound, pRel для релевантного документа равна 0,4, что означает что вероятность просмотра pLook никогда не будет равна нулю, что возможно только в случае нахождения документа с вероятностью релевантности равной 1. Т.к. вероятность просмотра для каждого документа будет положительной, несмотря на стремление к 0 с увеличением i (позиции документа), каждый из релевантных документов выдачи будет вносить свой вклад в значение pfound. Поэтому, максимизируя pfound, мы по сути ставим условие нахождения как можно большего числа релевантных документов. Т.е. если опираться на критерий качества поиска вида "Надо обеспечить максимально релевантную выдачу хотя бы в первой десятке", то pfound вполне себе катит. Хотя в комментах там есть про один документ, ага.

wolf:
Дык здесь под greedy algorythm наверняка подразумевается жадная генетика. Ну, это когда жадный алгоритм используется для получения нового поколения в генетическом алгоритме.
Под гриди алгоритмом в пдфке понимается вполне определенный, без всяких наверняка метод аппроксимации. Яндекс не впервые использует этот метод, в частности на РОМИП 2008 они говорили об этом алгоритме, как о дающем лучшие результаты в задаче параметрической оптимизации поискового алгоритма. http://alsafr.livejournal.com/7802.html, метод TreeNet - это и есть наш гриди. :)

Intelis:
А чем динамика хуже? Там по крайней мере идет поиск лучших вариантов, хоть и больше ресурсов требуется.

Откуда я знаю, чем хуже? Это у яндексоидов нужно спрашивать. :)

Обучение с pfound видимо ниасилили, с таким большим набором параметров и на таком большом обучающем множестве алгоритм очень долго считает. С генетикой нужно реально на уши вставать как математикам, так и программерам, чтобы быстро было. Не думаю, что Яндекс нашел таких спецов, потому и траблы.

devzev:
Анализируя 3 дня буку я пришёл к такому выводу: в выдаче не участвуют оценки ассесоров. Т.е. мы видим реально голый алгоритм без ручной корректировки. Так более ясно видны глюки.

Если посмотреть статью яндексоидов с RuSSIR-2009, ссылка на которую была в посте Расковалова о Снежинске, то все с точностью до наоборот. ;)

Алгоритм обучается только на оцененных документах.

devzev:
При замене алгоритма на основном домене я уверен, что добавят ручные оценки ассесоров + функция pfound откорректирует серп до более менее красивого результата за 1-1,5 месяца.
Всё дерьмо уйдёт вниз, а интересные проекты подрастут в позициях.
И в итоге жизнь оптимизаторов вновь примет яркие цвета. :)

pfound больше не используется. Теперь рулит жадный алгоритм. :)

Посмотрим, как жадность справится с релевантностью, я пока не уверен, что идея хорошая. Некоторый максимум такое обучение находит, один из бесконечного множества. И не факт, что хороший, не говоря уже о лучшем...

devzev:
PS: а вообще, Яндекс усилил борьбу с покупными ссылками. Никакой зависимости работоспособности ссылки от её времени жизни я не нашёл.

Пока это не очевидно, буки сыроваты.

devzev:
PS2: а ещё я в буках не вижу фильтра "Ты последний".

Да, многие зафильтрованные весело участвуют в серпе. Надолго ли? :)

Psycho:
Под "обсосанной" я имел в виду подвергнутую тщательному анализу. На Конференции, честно говоря, не был ни разу и в этом году не собираюсь.

Это зря.

Psycho:
Что касается "свежего" алгоритма, вряд ли эксперты найдут время, чтобы подготовить какие-то аналитические данные по нему, скорей всего доклады будут сосредоточены на Арзамасе, а это делает открытым вопрос их практической ценности в новых условиях.

Все не так кисло, как ты думаешь. :)

Например мой доклад будет более чем актуальным, ввиду заявленных фактов. Типа того, что свертка теперь - однозначно линейная. :)

Всего: 1960