Как работает поиск Яндекса (ранжирование в топ)

T
На сайте с 05.04.2006
Offline
97
#11

Асессоры ставят оценки только части страничек. Доры в списке асессоров скорее всего есть, но с релевантностью 0 по всем запросам. Доры пролазят в топ скорее всего по причине того, что на основании расчитанных 245 параметров они по версии алгоритма получаются достаточно релевантными.

То есть либо алгоритм не справился, либо база асессоров маловата и не учитывает какие-то факторы. Тут сложно сказать.

[Удален]
#12

Turbo,

Turbo:
Асессоры ставят оценки только части страничек

Так это все же люди? Каково их количество, по вашим оценкам?

T
На сайте с 05.04.2006
Offline
97
#13
antivir:
Turbo,
Так это все же люди? Каково их количество, по вашим оценкам?

Врать не буду, понятия не имею. Подозреваю что составляют базу частично люди которые занимаются алгоритмом, так как именно они понимают какие случаи являются критическими. И, возможно, у них есть помошники. Человек 10 ИМХО хватит, что бы поддерживать список актуальным. 200 тысяч страничек не так много, если учесть что составлялась эта база не один день и скорее всего не один год.

Кстати на страничке конкурса, все ещё доступны данные для загрузки.

И вот оттуда же:

Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов. Для обучения и проверки используются реальные данные – значения признаков пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса.

mr. Evil
На сайте с 07.12.2007
Offline
77
#14
vadts:
А интерестно, ацессоры смотрят сранички в том виде что их видит пользователь, или в текстовом виде?

в том виде, в котором видит пользователь

vadts:

P.S. Также интерестно какова сстепень влияния оценок ацессоров и других вакторов на релевантность. То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?

есть определенные параметры, указанные ацессором в 0, не дадут перевесить любому количеству ссылок

tysson
На сайте с 03.02.2009
Offline
282
#15
Turbo:

Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше.

А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?

Просто хочется практики вытянуть!

Смените дизайн.....
T
На сайте с 05.04.2006
Offline
97
#16
tysson:
А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?

Просто хочется практики вытянуть!

Конечно можете. Само условие задачи вот: http://company.yandex.ru/grant/2009/datasets

Проверяющая система до сих пор работает: http://company.yandex.ru/grant/2009/upload

Для решения (построение модели) я пользовался SVM Light: http://svmlight.joachims.org/ для неё и входные данные сразу подходят по формату. Остается только играться с параметрами.

Почитать что использовали другие участники и победитель можно здесь:

http://clubs.ya.ru/imat2009/replies.xml?item_no=49

Там же по алгоритму победителя на время запускали Buki.Yandex.Ru:

http://clubs.ya.ru/imat2009/replies.xml?item_no=95

wolf
На сайте с 13.03.2001
Offline
1183
#17
vadts:
То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?

Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Slavomir
На сайте с 05.12.2005
Offline
107
#18
Turbo:
Что дает эта модель?
По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу.

А вот здесь можно поподробнее? Какой из вариантов ближе к истине:

1. Для каждого запроса создается своя модель.

2. Модель создается для группы связанных запросов.

3. Модель создается для всего поиска.

Slavomir добавил 27.09.2009 в 14:25

wolf:
Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.

Тогда получаем ответ, почему в топ попадают дорвеи. Всегда возможен вариант, что невозможно подобрать коэффициенты таким образом, чтобы все документы, для которых асессоры выставили ноль получили значение близкое к нулю. Тогда алгоритм должен подбирать коэффициенты, которые дадут близкое к нулю значение для максимального количества документов. При этом для оставшихся значение может получиться весьма большим. Может быть поэтому Яндекс активнее Гугла выкидывает ГСы.

Вакансии удаленной работы (http://www.telejob.ru) Найди удаленного исполнителя (http://www.telejob.ru)
T
На сайте с 05.04.2006
Offline
97
#19
Slavomir:
А вот здесь можно поподробнее? Какой из вариантов ближе к истине:
1. Для каждого запроса создается своя модель.
2. Модель создается для группы связанных запросов.
3. Модель создается для всего поиска.

Номер 3: На основании данных асессоров создается ОДНА модель для всего поиска. Она действует до следующего апдейта.

И ещё хочу уточнить что релевантность ставится паре "запрос-страничка". То есть например паре "Запрос: 'Rambler' Страничка: 'http://yandex.ru'" вменяемый асессор даст 0. И это не значит что сайт http://yandex.ru плохой. =)

Chikago
На сайте с 24.10.2007
Offline
227
#20

Как угодить асессору? :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий