Turbo

Рейтинг
97
Регистрация
05.04.2006

Фильтр ты последний с точки зрения алгоритма. Вводим новый 246-ой параметр: «злобный фильтр». Принимает значения 0 и 1. 0 – для всех обычных сайтов, 1 – для сайтов под фильтром. Добавляем калибровочные пары в базу асессоров: «релевантный запрос – релевантный документ на сайте под фильтром» - релевантность 0. После следующего пересчета у сайтов со значением 1 в поле «злобный фильтр» падают в результатах очень далеко или вовсе вылетают. Проставлять 1-ки для страниц сайта в поле «злобный фильтр может как человек, так и автомат.

G00DMAN:
Все было бы просто, если бы именно эта модель использовалась в реале. Кстати, почему Вы решили, что конкурс был основан на текущем алгоритме? ИМХО, это не так. ;)

Цитата из условия конкурса: В рамках конкурса «Интернет-математика» мы распространяем реальные таблицы оценок, которые используются для подбора формулы ранжирования Яндекса. Таблицы содержат уже посчитанные и нормализованные признаки пар «запрос-документ», а также оценки релевантности, сделанные асессорами (оценщиками качества поиска) Яндекса. Таблицы не содержат оригинальных запросов и ссылок на оригинальные документы, не описана семантика признаков (признаки просто пронумерованы).

Плюс дополнительным доказательством для меня послужило что алгоритм победителя запускался на buki.yandex.ru, то есть все что делалось конкурсантами, было очень близко к практическому использованию.

dweller:
Вот тут:

Если конкретному сайту дать максимальную релевантность, то, по словам Turbo, первое место этому конкретному сайту обеспечено, а это, по словам Садовского, не так. :)

Первое место этому конкретному сайту по конкретному запросу не обязательно ВЧ. И скорее всего если асессор его выбрал он и так уже был на первом месте. Просто он его закрепил в алгоритме.

И цитаты от 2003 года скорее всего уже не есть правда.

wolf:
Есть основания, или просто интуиция?

Когда рейтинг был почти пустой там были Победа (1 место) и Baseline (Простой алгоритм). Потом появились уже все остальные.

tysson:
Ваш результат 4.235711. говорит ли это что Вы из 100 сайтов в выдаче правильно разместили почти 85?

Правильно, т.е. 100 из 100 делает только яша.

Нет это абстрактная цифра. Я думаю алгоритм Яндекса на тот момент находится под юзером "Победа".

tysson:
Какое место вы заняли?

Что то около 10-ого места:

http://company.yandex.ru/grant/2009/results

Тут я под "ZContest Team". Серые записи это вне конкурса (сотрудники Яндекса видимо), Желтые, те кто отсылал решения после окончания конкурса.

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой.

На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта (даже не присутствующего в начальной выборке) выдать достаточно точный ответ (отклик, реакцию). Для измерения точности ответов определённым образом вводится функционал качества.

На конкурсе таким функционалом качества была тестовая часть списка асессоров (нам давалась без релевантности). Мы считали релевантность и отсылали Яндексу через форму. А Яндекс после отсылки там на своей стороне сравнивал наше значение с релевантностью асессоров. Чем меньше отличий тем выше в рейтинге. =)

wladvlad:
тут непонятка вышла с тем, что люди не подбирают релевантные запросам сайты, а оценивают текущую выдачу.
и это момент принципиальный.
не алгоритм строится на данных таблиц, а с помощью этих таблиц оценивается работоспособность уже работающего алгоритма.

А как сделать "машинное обучение" без начальных данных?

totalwars:
А то вечное "хобана! Я понял как работает яндекс!"... В конце концов я физмат заканчивал не для того, чтобы понимать только "мат" и не понимать "физ". Формулы в студию... Или хотя бы вменяемое пояснение на примерах.

В заглавном посте первая ссылка ведет на официальный конкурс Яндекса. Там есть слова В рамках конкурса «Интернет-математика» мы распространяем реальные таблицы оценок, которые используются для подбора формулы ранжирования Яндекса. Таблицы содержат уже посчитанные и нормализованные признаки пар «запрос-документ», а также оценки релевантности, сделанные асессорами (оценщиками качества поиска) Яндекса. Таблицы не содержат оригинальных запросов и ссылок на оригинальные документы, не описана семантика признаков (признаки просто пронумерованы).

Публикаций по этой теме уйма, если что. =) Если уж вы физ.мат. то изучение начучной литературы не должно доставить трудов. Начать советую отсюда:

http://en.wikipedia.org/wiki/Support_vector_machine

Str256:
Это без учёта ссылочного. С учётом внешних ссылок, может быть совсем по-другому.

А если эта страница дублируется на 100 разных сайтах? Или на сайт наложен фильтр какой? Всё не так однозначно.

1) Если по паре "запрос-документ" настраивается алгоритм и там явно сказано релевантность 0, то хоть 10000 ссылок поставь ничего не сделаешь, там и будет 0, а в глобальном масшатбе влияние ссылочного может слегка снизиться.

2) Если страница дублируется 100 раз, то её параметры на всех сайтах разные и для алгоритма это будут разные страницы.

И ещё замечание. Я ничего не знаю по поводу того как яндекс отбирает тот набор страниц, которые в итоге ранжирует для пользователя. Он не может по данному запросу считать релевантность очень большого числа страниц, только какой-то части.

Turbo добавил 27.09.2009 в 15:20

chinatechnika:
Ребят, а расшифруйте вот этот термин. Что-то смысл этого параметра для меня остается недоступным.

Число от 1 до N. Означает сколько слов в запросе.

Запрос "работа" - 1

Запрос "как мне поймать попугая на даче" - 6

Всего: 347