Turbo

Рейтинг
97
Регистрация
05.04.2006
богоносец:
Подробнее можно? Как именно наблюдалось?

Никак не наблюдалось, но это логично. Если по этой точке настраивается алгоритм, то при подставлений вполне конкретных значений этой точки, мы получим то что было задано асессором (либо очень близкое значение).

Chikago:
Святой грааль вы хотели сказать? 😂

Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.

Chikago:
Как угодить асессору? :)

Скорее всего никак. У большинства сайтов Ру-Нета нет ни одной странички в базе асессоров. Попадание туда с релевантность 5 по ВЧ, ИМХО как призрачная мечта. Можно только стараться быть похожими на сайты которые всегда стоят на первом месте по какому-то важному запросу. Так что все что здесь обсуждается скорее просто нужно для понимания работы поисковика и на практике не пригодится.

Что бы осознанно влиять на выдачу нужно:

1) Достать описание и метод расчета всех 245 (?) параметров

2) Достать хотя бы устаревшую базу асессоров

И с учетом выполнимости первого и второго пункта использовать один из готовых алгоритмов для построения модели. Тот же SVM-Light дает результаты не намного хуже алгоритма Яндекса.

Slavomir:
А вот здесь можно поподробнее? Какой из вариантов ближе к истине:
1. Для каждого запроса создается своя модель.
2. Модель создается для группы связанных запросов.
3. Модель создается для всего поиска.

Номер 3: На основании данных асессоров создается ОДНА модель для всего поиска. Она действует до следующего апдейта.

И ещё хочу уточнить что релевантность ставится паре "запрос-страничка". То есть например паре "Запрос: 'Rambler' Страничка: 'http://yandex.ru'" вменяемый асессор даст 0. И это не значит что сайт http://yandex.ru плохой. =)

tysson:
А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?

Просто хочется практики вытянуть!

Конечно можете. Само условие задачи вот: http://company.yandex.ru/grant/2009/datasets

Проверяющая система до сих пор работает: http://company.yandex.ru/grant/2009/upload

Для решения (построение модели) я пользовался SVM Light: http://svmlight.joachims.org/ для неё и входные данные сразу подходят по формату. Остается только играться с параметрами.

Почитать что использовали другие участники и победитель можно здесь:

http://clubs.ya.ru/imat2009/replies.xml?item_no=49

Там же по алгоритму победителя на время запускали Buki.Yandex.Ru:

http://clubs.ya.ru/imat2009/replies.xml?item_no=95

antivir:
Turbo,
Так это все же люди? Каково их количество, по вашим оценкам?

Врать не буду, понятия не имею. Подозреваю что составляют базу частично люди которые занимаются алгоритмом, так как именно они понимают какие случаи являются критическими. И, возможно, у них есть помошники. Человек 10 ИМХО хватит, что бы поддерживать список актуальным. 200 тысяч страничек не так много, если учесть что составлялась эта база не один день и скорее всего не один год.

Кстати на страничке конкурса, все ещё доступны данные для загрузки.

И вот оттуда же:

Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов. Для обучения и проверки используются реальные данные – значения признаков пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса.

Асессоры ставят оценки только части страничек. Доры в списке асессоров скорее всего есть, но с релевантностью 0 по всем запросам. Доры пролазят в топ скорее всего по причине того, что на основании расчитанных 245 параметров они по версии алгоритма получаются достаточно релевантными.

То есть либо алгоритм не справился, либо база асессоров маловата и не учитывает какие-то факторы. Тут сложно сказать.

Думаю лучше предлагать всеже Яндекс. Деньги, а не WMZ. =)

На сайте с школьной/студенческой аудиторией наблюдаю серьезный утренний провал. Посмотрим восстановится ли к вечеру.

О-ло-ло. KeyWeb закрыл торрент трекер по просьбе правообладателей:

http://net.compulenta.ru/451361/

Всего: 347