Никак не наблюдалось, но это логично. Если по этой точке настраивается алгоритм, то при подставлений вполне конкретных значений этой точки, мы получим то что было задано асессором (либо очень близкое значение).
Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.
Скорее всего никак. У большинства сайтов Ру-Нета нет ни одной странички в базе асессоров. Попадание туда с релевантность 5 по ВЧ, ИМХО как призрачная мечта. Можно только стараться быть похожими на сайты которые всегда стоят на первом месте по какому-то важному запросу. Так что все что здесь обсуждается скорее просто нужно для понимания работы поисковика и на практике не пригодится.
Что бы осознанно влиять на выдачу нужно:
1) Достать описание и метод расчета всех 245 (?) параметров
2) Достать хотя бы устаревшую базу асессоров
И с учетом выполнимости первого и второго пункта использовать один из готовых алгоритмов для построения модели. Тот же SVM-Light дает результаты не намного хуже алгоритма Яндекса.
Номер 3: На основании данных асессоров создается ОДНА модель для всего поиска. Она действует до следующего апдейта.
И ещё хочу уточнить что релевантность ставится паре "запрос-страничка". То есть например паре "Запрос: 'Rambler' Страничка: 'http://yandex.ru'" вменяемый асессор даст 0. И это не значит что сайт http://yandex.ru плохой. =)
Конечно можете. Само условие задачи вот: http://company.yandex.ru/grant/2009/datasets
Проверяющая система до сих пор работает: http://company.yandex.ru/grant/2009/upload
Для решения (построение модели) я пользовался SVM Light: http://svmlight.joachims.org/ для неё и входные данные сразу подходят по формату. Остается только играться с параметрами.
Почитать что использовали другие участники и победитель можно здесь:
http://clubs.ya.ru/imat2009/replies.xml?item_no=49
Там же по алгоритму победителя на время запускали Buki.Yandex.Ru:
http://clubs.ya.ru/imat2009/replies.xml?item_no=95
Врать не буду, понятия не имею. Подозреваю что составляют базу частично люди которые занимаются алгоритмом, так как именно они понимают какие случаи являются критическими. И, возможно, у них есть помошники. Человек 10 ИМХО хватит, что бы поддерживать список актуальным. 200 тысяч страничек не так много, если учесть что составлялась эта база не один день и скорее всего не один год.
Кстати на страничке конкурса, все ещё доступны данные для загрузки.
И вот оттуда же:
Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов. Для обучения и проверки используются реальные данные – значения признаков пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса.
Асессоры ставят оценки только части страничек. Доры в списке асессоров скорее всего есть, но с релевантностью 0 по всем запросам. Доры пролазят в топ скорее всего по причине того, что на основании расчитанных 245 параметров они по версии алгоритма получаются достаточно релевантными.
То есть либо алгоритм не справился, либо база асессоров маловата и не учитывает какие-то факторы. Тут сложно сказать.
Думаю лучше предлагать всеже Яндекс. Деньги, а не WMZ. =)
На сайте с школьной/студенческой аудиторией наблюдаю серьезный утренний провал. Посмотрим восстановится ли к вечеру.
О-ло-ло. KeyWeb закрыл торрент трекер по просьбе правообладателей:
http://net.compulenta.ru/451361/