- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Асессоры ставят оценки только части страничек. Доры в списке асессоров скорее всего есть, но с релевантностью 0 по всем запросам. Доры пролазят в топ скорее всего по причине того, что на основании расчитанных 245 параметров они по версии алгоритма получаются достаточно релевантными.
То есть либо алгоритм не справился, либо база асессоров маловата и не учитывает какие-то факторы. Тут сложно сказать.
Turbo,
Асессоры ставят оценки только части страничек
Так это все же люди? Каково их количество, по вашим оценкам?
Turbo,
Так это все же люди? Каково их количество, по вашим оценкам?
Врать не буду, понятия не имею. Подозреваю что составляют базу частично люди которые занимаются алгоритмом, так как именно они понимают какие случаи являются критическими. И, возможно, у них есть помошники. Человек 10 ИМХО хватит, что бы поддерживать список актуальным. 200 тысяч страничек не так много, если учесть что составлялась эта база не один день и скорее всего не один год.
Кстати на страничке конкурса, все ещё доступны данные для загрузки.
И вот оттуда же:
Цель участников конкурса «Интернет-математика 2009» – с помощью методов машинного обучения получить формулу ранжирования документов. Для обучения и проверки используются реальные данные – значения признаков пар «запрос-документ» и оценки релевантности, сделанные асессорами Яндекса.
А интерестно, ацессоры смотрят сранички в том виде что их видит пользователь, или в текстовом виде?
в том виде, в котором видит пользователь
P.S. Также интерестно какова сстепень влияния оценок ацессоров и других вакторов на релевантность. То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?
есть определенные параметры, указанные ацессором в 0, не дадут перевесить любому количеству ссылок
Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше.
А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?
Просто хочется практики вытянуть!
А у меня дома эта модель может построиться? как бы глянуть, о чем идет речь?
Просто хочется практики вытянуть!
Конечно можете. Само условие задачи вот: http://company.yandex.ru/grant/2009/datasets
Проверяющая система до сих пор работает: http://company.yandex.ru/grant/2009/upload
Для решения (построение модели) я пользовался SVM Light: http://svmlight.joachims.org/ для неё и входные данные сразу подходят по формату. Остается только играться с параметрами.
Почитать что использовали другие участники и победитель можно здесь:
http://clubs.ya.ru/imat2009/replies.xml?item_no=49
Там же по алгоритму победителя на время запускали Buki.Yandex.Ru:
http://clubs.ya.ru/imat2009/replies.xml?item_no=95
То есть если ацессор сказал 0, но ссылок на страничку дофига, — кто перевесит?
Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.
Что дает эта модель?
По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу.
А вот здесь можно поподробнее? Какой из вариантов ближе к истине:
1. Для каждого запроса создается своя модель.
2. Модель создается для группы связанных запросов.
3. Модель создается для всего поиска.
Slavomir добавил 27.09.2009 в 14:25
Если асессор сказал "ноль", то в идеале все коэффициенты в формуле должны настроиться так, что в результате для этого документа будет значение, очень близкое к нулю.
Тогда получаем ответ, почему в топ попадают дорвеи. Всегда возможен вариант, что невозможно подобрать коэффициенты таким образом, чтобы все документы, для которых асессоры выставили ноль получили значение близкое к нулю. Тогда алгоритм должен подбирать коэффициенты, которые дадут близкое к нулю значение для максимального количества документов. При этом для оставшихся значение может получиться весьма большим. Может быть поэтому Яндекс активнее Гугла выкидывает ГСы.
А вот здесь можно поподробнее? Какой из вариантов ближе к истине:
1. Для каждого запроса создается своя модель.
2. Модель создается для группы связанных запросов.
3. Модель создается для всего поиска.
Номер 3: На основании данных асессоров создается ОДНА модель для всего поиска. Она действует до следующего апдейта.
И ещё хочу уточнить что релевантность ставится паре "запрос-страничка". То есть например паре "Запрос: 'Rambler' Страничка: 'http://yandex.ru'" вменяемый асессор даст 0. И это не значит что сайт http://yandex.ru плохой. =)
Как угодить асессору? :)