UZPN

Рейтинг
58
Регистрация
16.10.2007
Psycho:
А откуда инфа, что у него 2 варианта оценки?

У меня такой инфы нет. Я пример привел. Логика не меняется от того 2 у них варианта или 4.

G00DMAN:
Вы немного попутали - асессор не оценивает релевантность сайта, он оценивает релевантность документа. И качество такой оценки очень высокое, как мне кажется.

Да, насчет сайта/документа - перепутал слова - слишком большой текст написал :).

А насчет качества оценки асессором:

да оценка наверное достаточно точная в том смысле что асессор достаточно точно говорит релевантен документ или нет. Т.е. выставляет ему оценку, 1 или 0 (ну или например 1 0,5 0 ). Но сама эта оценка уже содержит в себе огромную неточность: он не может одному релевантному документу поставить 0.9, другому 0.8, а третьему 0.7 - всем ставит 1. Т.е. если например у асессора всего два варианта оценки 0 и 1 то ошибка составляет 50% (если у него больше вариантов то погрешность меньше).

Поэтому мы снова возвращаемся к:

UZPN:
Одновременно увеличивая тестовую выборку и жесткость критерия качества (а с ними сложность модели) в какой-то момент мы столкнемся с проблемой погрешности самой тестовой выборки. А она при определении релевантности сайта асессором крайне высока. Т.е. задолго до того как "у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано" метод перестанет улучшать функцию ранжирования.

Privod, да вроде все дошло до меня. Если я в чем-то ошибся поправьте меня. Если же Вам просто не нравится то что я написал то смиритесь или напишите что-нибудь в духе: "я слишком крутой что бы объяснять что-либо всяким дятлам до которых плохо доходит" :)

P.S. последнее предложение не совет, а ирония (это на случай если Вам придет в голову написать что-то типа: не учите меня жить) :)

G00DMAN:
А при чем тут нейронные сети?

Да почти ни причем - просто у них для этого случая нашелся удачный термин хорошо отражающий суть проблемы. (как я уже писал проблема общая для всех задач использующих "обучение с учителем")

G00DMAN:
Для решения такой задачи проще всего взять табличную функцию, тогда и вычислительных возможностей не нужно, и совпадение будет 100%.

Можно, конечно. Такая функция со 100% точностью отранжирует обучающую выборку, а для остальных документов мало чем будет полезна.

G00DMAN:
Правильный ответ не 1 или 0, обычно ответов больше, о чем в ветке уже писалось.

Я думаю Вы согласитесь с тем что не имеет принципиального значения два ответа или четыре.

G00DMAN:
Никакого рандома не будет и функция ранжирования ничего не запомнила, она все значения высчитала сама.

Мнение вижу, аргументов не вижу (да посчитала... но по памяти :) )

Поясню на простом примере эффект "запоминания":

есть зависимость величины Y от величины X наблюдаемая экспериментально и с некоторой погрешностью (пусть это будет Y=X^2). У нас в распоряжении данные 100 экспериментов. Мы хотим каким-то из методов "обучения с учителем" найти эту зависимость. Что бы в дальнейшем предсказывать значения Y зная значение X. Критерием качества будет упомянутый Вами минимум квадратов разностей.

Пусть наш алгоритм поиска имеет возможность для поиска подходящей функции только среди постоянных функций Y=const. Тогда результатом поиска зависимости Y(X) будет просто среднее значение величины Y в обучающей сотне экспериментов. Довольно фиговое приближение квадратичной функции. И это будет видно на самой же обучающей выборке - критерий качества неизбежно будет иметь очень большое значение.

Теперь пусть наш алгоритм поиска позволяет искать функции в классе кусочно постоянных с одной ступенькой - приближение будет лучше. (это же покажет и критерий качества на обучающей выборке).

Далее увеличиваем наши возможности - 3 ступеньки, 4, 5... 50, ... 90 - на 90 результат поиска будет хорошим. Опять же критерий качества на обучающей выборке будет это показывать. Для того же алгоритма но с количеством ступенек например 1 такое маленькое значение этого критерия недостижимо.

А если увеличиваем наши возможности до 200 ступенек. Результат будет лучше чем на 90?

После обучения критерий качества будет равен 0 - 100% совпадение на обучающей выборке.

Но прогнозы этот алгоритм будет делать хуже чем при 90 ступеньках. Потому что алгоритм подберет для 100 значений X из обучающей выборки 100 идеально соответствующих им значений Y (руководствуясь критерием качества). Но у него есть еще 100 неиспользованных значений, которые не оказывают никакого влияния на критерий качества на обучающей выборке. А раз нет влияния то он выберет их произвольным образом. Поэтому и будет после обучения давать произвольные прогнозы.

Вот это и есть эффект "переобучения" и "запоминания".

А если мы все же хотим существенно лучшую точность предсказаний чем позволяет нам модель с 90 ступеньками? Тогда нужно не 100 экспериментов, а например 1000. Но мы договорились что наши экспериментальные данные изначально имеют некоторую погрешность. Поэтому увеличивая количество экспериментов и сложность модели мы на каком-то этапе все-равно упремся в это порог и не сможем улучшать качество прогнозов изначально искомой нами зависимости Y=X^2. (мы лишь со все большей подробностью начнем описывать случайные погрешности эксперимента).

Теперь вернемся к плотности значений функции релевантности для сайтов в топе яндекс:

G00DMAN:
Учитывая, что почти наверняка критерий качества жесткий, получаем, что вычисленная с помощью формулы ранжирования релевантность будет очень близка к 1, т.е. плотность значений в топе будет максимальной, при наличии достаточного количества релевантных документов. По некоторым ВК она может быть и на топ-100 значительной, т.к. много релевантных документов.

Ну и, учитывая объем и качество обучающего множества, получается, что при такой метрике качества у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано. И плотность, особенно в топе, будет высокой.

Если я правильно Вас понял свое мнение о высокой плотности значений ф.рел. в топах Вы основываете на том что "почти наверняка критерий качества жесткий" (причем настолько жесткий что значения ф.рел. на обучающей выборке для релевантных сайтов равны 1+-нано).

1. А зачем ему быть жестким?

2. Как видно из примера приведенного выше жесткость критерия "обученности" алгоритма можно получить только увеличивая "подробность" модели. При этом с увеличением сложности мы получаем и увеличение эффекта "переобучения".

3 и главное:

Улучшения качества модели невозможно добиваться одним лишь ужесточением критерия качества. Необходимо опережающее увеличение тестовой выборки.

Одновременно увеличивая тестовую выборку и жесткость критерия качества (а с ними сложность модели) в какой-то момент мы столкнемся с проблемой погрешности самой тестовой выборки (как в последнем абзаце моего примера). А она при определении релевантности сайта асессором крайне высока. Т.е. задолго до того как "у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано" метод перестанет улучшать функцию ранжирования.

kxk, в таком случае на:

kxk:
UZPN, Ещё 1 наивный детектед, я про теракты.

ответ:

Еще 1 "не читавший но осуждающий" детектед.

P.S. + 1 жалкий подражатель детектед.

spermint:
Это почему же? Табу?

Ну да, следуя логике вот этого поста:

Privod:
с 41-44 такой подвиг совершался каждый день, давайте будем ежедневно создавать такие темы.

spermint, а из моего поста Вы цитату специально выдрали так что бы извратить смысл? Это такая игра или со смыслом случайно второй раз подряд нехорошо получилось? :)

москаль, хорошо что всегда сам найдется неравнодушный человек, который научит правильно жить...

москаль:
Для этого есть поведенческие факторы в ранжировании, которые задают сами пользователи, поэтому вероятность переобучения яндексу не грозит (разве что по большой тупости).

Что за факторы? Приведите примеры пожалуйста.

Privod:
Давайте обсудим, есть что сказать по этому поводу ?

Хотите - обсуждайте, не хотите - не обсуждайте. Дело Ваше, я лишь указал на ошибку в логике.

spermint:
А что, освободительная борьба палестинского, чеченского, афганского и иракского народов - это терроризм?

Я не говорил что это терроризм и вообще никаких оценок всем перечисленным мной событиям не давал. Я лишь привел примеры событий на тему которых не следует создавать топики следуя странноватой логике господина Privod.

kxk:
UZPN, Ещё 1 наивный детектед, я про теракты.

не понял.

G00DMAN:

А что касается реальных ВК, то они конечно же менее интересны, но о них тоже можно сказать. Начнем с процесса обучения. В обучающей выборке есть примеры как сильно релевантных документов, так и совсем не релевантных, иначе не обучить. Но нас интересуют только "самые релевантные" с точки зрения асессоров. Их оценки не отличаются друг от друга, у всех это одно и тоже число. В ИМ-2009 это было 4, в презентации про жадность предлагалось всунуть все "истинные" релевантности в интервал [0..1], но это не суть. Пусть это будет 1, что ли...

Т.е. все документы, попавшие в обучающую выборку и оцененные, как релевантные, имеют одну и ту же оценку, 1. При обучении функции ранжирования, если верить Яндексу, используется простейший (но эффективный) критерий качества - ищется минимум квадратов разностей вычисленных релевантностей с истинными. Учитывая, что почти наверняка критерий качества жесткий, получаем, что вычисленная с помощью формулы ранжирования релевантность будет очень близка к 1, т.е. плотность значений в топе будет максимальной, при наличии достаточного количества релевантных документов. По некоторым ВК она может быть и на топ-100 значительной, т.к. много релевантных документов.

Ну и, учитывая объем и качество обучающего множества, получается, что при такой метрике качества у любого релевантного документа вычисленная релевантность будет болтаться в 1 +- нано. И плотность, особенно в топе, будет высокой.

G00DMAN, ситуация, которую Вы описываете, в теории нейронных сетей называют "эффект переобучения" - сеть "запомнила" правильные ответы для обучающей выборки, а не "обобщила" их.

- для любого размера обучающей выборки можно выбрать достаточно "сложную" модель поиска функции релевантности для того что бы в результате "обучения" получить функцию на 100% совпадающую с оценками асессоров (при достаточных вычислительных возможностях).

Т.к. на обучающей выборке правильный ответ только "1" или "0", то в этом случае действительно (в ситуации "переобучения") для релевантных документов из обучающей выборки посчитанная функция релевантности будет давать значения 1+- нано. Но для остальных документов (не из обучающей выборки) это будет функция дающая непредсказуемые результаты (почти рандом - небольшие изменения в обучающей выборке будут приводить к резким изменениям всей выдачи) - ведь эта, найденная функция не отражает закономерностей, она лишь запомнила правильные ответы произвольным способом. (размерность модели превышает размерность обучающего множества - количество подходящих со 100% точностью решений бесконечно).

В ситуации которую Вы описываете плотность значений функции релевантности для документов не из обучающей выборки будет произвольная.

В любом случае яндексоиды наверное в курсе этой проблемы - общей для всех моделей использующих "обучение с учителем".

Privod:
с 41-44 такой подвиг совершался каждый день, давайте будем ежедневно создавать такие темы.

c 41 по 44 (а как же 45?) погибло на три порядка больше людей чем в Афганской войне и в Чеченской, случилось на порядки больше военных подвигов и любых других событий связанных с войной и смертью.

Так давайте, следуя Вашей логике, вообще не обсуждать события в Чечне, Грузии, Афганистане, Ираке. И если теракт например какой-нибудь случится или еще одна небольшая война или еще какие-то проблемы - на них тоже забить - ведь все это меркнет по сравнению с событиями 41-44.

Всего: 1023