Для каждого запроса создается своя модель - Общие вопросы оптимизации

97

Turbo

27 сентября 2009, 08:42

#11

Асессоры ставят оценки только части страничек. Доры в списке асессоров скорее всего есть, но с релевантностью 0 по всем запросам. Доры пролазят в топ скорее всего по причине того, что на основании расчитанных 245 параметров они по версии алгоритма получаются достаточно релевантными.

То есть либо алгоритм не справился, либо база асессоров маловата и не учитывает какие-то факторы. Тут сложно сказать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

27 сентября 2009, 08:56

#12

Turbo,

Turbo:
Асессоры ставят оценки только части страничек

Так это все же люди? Каково их количество, по вашим оценкам?

T

97

Turbo

27 сентября 2009, 09:12

#13

antivir:
Turbo,
Так это все же люди? Каково их количество, по вашим оценкам?

Врать не буду, понятия не имею. Подозреваю что составляют базу частично люди которые занимаются алгоритмом, так как именно они понимают какие случаи являются критическими. И, возможно, у них есть помошники. Человек 10 ИМХО хватит, что бы поддерживать список актуальным. 200 тысяч страничек не так много, если учесть что составлялась эта база не один день и скорее всего не один год.

Кстати на страничке конкурса, все ещё доступны данные для загрузки.

И вот оттуда же:

Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов. Для обучения и проверки используются реальные данные – значения признаков пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса.

Стартовал конкурс Яндекса «Интернет-математика Google рассказал, как обратная Самая свежая информация появилась

77

mr. Evil

27 сентября 2009, 09:13

#14

vadts:
А интерестно, ацессоры смотрят сранички в том виде что их видит пользователь, или в текстовом виде?

в том виде, в котором видит пользователь

vadts:

P.S. Также интерестно какова сстепень влияния оценок ацессоров и других вакторов на релевантность. То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?

есть определенные параметры, указанные ацессором в 0, не дадут перевесить любому количеству ссылок

282

tysson

27 сентября 2009, 09:32

#15

Turbo:

Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше.

А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?

Просто хочется практики вытянуть!

Смените дизайн.....

T

97

Turbo

27 сентября 2009, 09:42

#16

tysson:
А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?

Просто хочется практики вытянуть!

Конечно можете. Само условие задачи вот: http://company.yandex.ru/grant/2009/datasets

Проверяющая система до сих пор работает: http://company.yandex.ru/grant/2009/upload

Для решения (построение модели) я пользовался SVM Light: http://svmlight.joachims.org/ для неё и входные данные сразу подходят по формату. Остается только играться с параметрами.

Почитать что использовали другие участники и победитель можно здесь:

http://clubs.ya.ru/imat2009/replies.xml?item_no=49

Там же по алгоритму победителя на время запускали Buki.Yandex.Ru:

http://clubs.ya.ru/imat2009/replies.xml?item_no=95

Яндекс.Метрика 2.0 выходит из Яндекс кобласит Упал доход

1183

wolf

27 сентября 2009, 10:04

#17

vadts:
То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?

Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

107

Slavomir

27 сентября 2009, 10:19

#18

Turbo:
Что дает эта модель?
По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу.

А вот здесь можно поподробнее? Какой из вариантов ближе к истине:

1. Для каждого запроса создается своя модель.

2. Модель создается для группы связанных запросов.

3. Модель создается для всего поиска.

Slavomir добавил 27.09.2009 в 14:25

wolf:
Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.

Тогда получаем ответ, почему в топ попадают дорвеи. Всегда возможен вариант, что невозможно подобрать коэффициенты таким образом, чтобы все документы, для которых асессоры выставили ноль получили значение близкое к нулю. Тогда алгоритм должен подбирать коэффициенты, которые дадут близкое к нулю значение для максимального количества документов. При этом для оставшихся значение может получиться весьма большим. Может быть поэтому Яндекс активнее Гугла выкидывает ГСы.

Вакансии удаленной работы (http://www.telejob.ru) Найди удаленного исполнителя (http://www.telejob.ru)

T

97

Turbo

27 сентября 2009, 10:26

#19

Slavomir:
А вот здесь можно поподробнее? Какой из вариантов ближе к истине:
1. Для каждого запроса создается своя модель.
2. Модель создается для группы связанных запросов.
3. Модель создается для всего поиска.

Номер 3: На основании данных асессоров создается ОДНА модель для всего поиска. Она действует до следующего апдейта.

И ещё хочу уточнить что релевантность ставится паре "запрос-страничка". То есть например паре "Запрос: 'Rambler' Страничка: 'http://yandex.ru'" вменяемый асессор даст 0. И это не значит что сайт http://yandex.ru плохой. =)

227

Chikago

27 сентября 2009, 10:33

#20

Как угодить асессору? :)

Курс биткоина превысил $50 тысяч

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Как работает поиск Яндекса (ранжирование в топ)