Частота апдейтов ссылочного ранжирования

богоносец
На сайте с 30.01.2007
Offline
764
#181
wolf:
в погоне за так называемой уникализацией анкоров, коммерческие запросы разбавляются чем ни попадя. В итоге коммерческие ссылки оказывают заметное влияние на некоммерческие запросы, т.к. некоммерческие термины активно используются для разбавления коммерческих анкоров.

Т.е. подразумевается, что до этого всего «настройки машинного обучения на основе рипортов асессоров» не вносили необходимых компенсаций в ранжирование «продвигаемых» страниц. Это же клевета на Всемогущего!

Глядя на хвост запросов, по которым заходят, пытаюсь прикинуть — какие из них можно счесть за «коммерческие», а какие за «некоммерческие»? Часто не могу однозначно предположить, чего хотел искатель — товар или инфу про его применение?.. и это при том, что конкретная тема мне известна гораздо лучше, чем асессору, ну и всем тем, кто взялся точно разграничить про всё-всё.

G00DMAN:
4. Обучение проходит на данных от асессоров, данных уже много.

Какова реальная применимость этих данных? Что там с «шумом»?

Истинную релевантность документа запросу пока не возможно просчитать алгоритмически, ее оценивают живые асессоры.

Реальная задача асессоров не в этом...

... ну, сделайте запрос про дебри вашей специализации и оцените релевантность ТОПа, и прикиньте — сможет ли то же сделать обычный искатель / асессор? Да, но со своей колокольни / выполняя инструкцию... и релевантностей получится несколько — все субъективны и без претензий на (не однозначную) истину. Какую же релевантность считать «правильной»?

«Нам не нужен здоровый человек. Нам нужен человек, умеющий жить в этом обществе.»

ПС, как коммерческий проект — обречена быть релевантна не какой-то там истине, а массовому юзеру... его-то мутные реакции и имитируют асессоры. Если полученные от них данные (с умеренным отношением сигнал/шум) позволяют с достаточной точностью выявить какие-то характерные признаки/типы страниц/ссылок... машинное обучение сможет «улучшить».

G00DMAN
На сайте с 19.04.2008
Offline
122
#182
богоносец:
Какова реальная применимость этих данных? Что там с «шумом»?
...
Реальная задача асессоров не в этом...

Все не совсем так, как Вы думаете с этими асессорами. Я, к сожалению, не читал инструкцию для асессора Яндекса, она теоретически может быть отличной от мировой практики, т.к. разработчики в Яндексе иногда очень креативно отжигают. :)

Мировая практика с асессорами такова - асессоры, как правило, не оценивают ранжирование документов, не сравнивают документы по релевантности. Хотя бы потому, что и запрос может трактоваться многими способами, и асессор может быть не спецом в теме. Асессоры оценивают пары <запрос-документ>, обычно по критерию "документ релевантен(еще говорят витальный, но это не та витальность, которая пришпиливает топ-1/частично релевантен/не релевантен". И как бы все. :)

Оценки ранжирования могут быть только на узкотематичных коллекциях документов с привлечением асессоров-профи в данной теме.

Инструкция для асессоров обычно как раз и содержит правила, по которым нужно относить пары в ту или иную категорию.

И задача обучения - сделать например в топ-100 выдачи как можно больше "документ релевантен", если такие документы присутствуют где-то в индексе ПС.

Задача ранжирования по "истинной" релевантности для конкретного пользователя при этом никогда не рассматривается, т.к. ее формализовать в настоящее время не реально.

Для того, чтобы формализовать такую задачу, можно поступить следующим образом. Задавая запрос, пользователь может хотеть получить десятки, а то и сотни разных ответов, но скорее всего есть наиболее распространенные два-три ответа. Если оценить все документы в выдаче по критерию "на какой именно вариант запроса отвечает документ", а потом посчитать доли кликов реальных пользователей на документы каждой группы, то наверное можно сформировать некую пропорцию в выдаче на первых страницах. Но это задача будущего, ИМХО. :)

З.Ы. Выложили труды РОМИП-2009.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
богоносец
На сайте с 30.01.2007
Offline
764
#183
асессоры, как правило, не оценивают ранжирование документов, не сравнивают документы по релевантности.
...
Асессоры оценивают пары <запрос-документ>

Да это понятно... но представьте, что ТОП (и величина pfound) изменяется, если асессор понимает больше/меньше на тему какого-то запроса/документа, хотя «реальный юзер» может отчичаться и меньшим, и большим пониманием.

не читал инструкцию для асессора Яндекса

Почитываю их уже месяцев несколько.

Они крайне конкретно предлагают проявлять Собственное мнение:

Описание запроса – это Ваше понимание того, что искал пользователь, задавший этот запрос...

Как оценивать?

Ключевое правило - используйте ваш здравый смысл и попробуйте представить себя на месте человека, задавшего этот запрос.
http://www.romip.ru/romip2009/21_appendix_B_WA.pdf
Инструкция для асессоров обычно как раз и содержит правила, по которым нужно относить пары в ту или иную категорию.

Эти легковесные/приблизительные инструкции — могут сделать процесс оценки слишком разумным, хотя оценивающий может быть совсем не в теме оцениваемых документов.

Т.е. по многим причинам неизбежно накопление шума, ограничивающего применимость этих данных.

Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы,
тем самым развивая и улучшая поисковую систему. http://www.romip.ru/romip2009/15_yandex.pdf

Когда следующей весной тут возникнет тема «Великий Яндекс на парижской конфе заявил, что по некоммерческим запросам умеет отличать рекламу от инфы», это будет означать, что в имеющуюся систему добавилось новых факторов, возможно, требующих соотв. настроек по оценкам асессоров... и вполне вероятно, что ГА надо будет некоторое время (до появления приемлемых результатов) их переварить. И в это время можно будет тут пофантазировать об чём-нибудь частичном.

wolf
На сайте с 13.03.2001
Offline
1183
#184

Хм... Реверс-инжиниринг функции минимум о 163 переменных представляется весьма непростой задачей. Хотя, чем черт не шутит, если на самом деле полином, т.е. функция линейная... Значимых факторов ведь все рано не больше десятка наберется...

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
богоносец
На сайте с 30.01.2007
Offline
764
#185
если на самом деле полином, т.е. функция линейная...

Всё нелинейное (долго считаемое) можно посчитать заранее и вписать в соотв. шкалу-фактор:

Примеры из расширенного набора факторов:
- логарифм количества ссылок на документ;
- процент ссылок на документ, содержащих точное вхождение запроса.
http://www.romip.ru/romip2009/15_yandex.pdf
Значимых факторов ведь все рано не больше десятка наберется...

Чем менее однородной будет толпа оптимизаторов, тем больше будет значимых факторов и тем на больших выборках запросов придётся их выяснять... а пока что-то не стало заметной тенденцией, оно спокойно тонет в шуме, даже если для этого уже заведены шкалы-факторы.

Официальные метрики РОМИП 2009

Большинство метрик, применяемых в современной оценке текстового поиска, основываются на отношении релевантности документа запросу. Обсуждение самого понятия релевантности выходит за рамки данного документа. Здесь необходимо лишь отметить, что это отношение имеет скорее психологическую природу и устанавливается прямым опросом экспертов-оценщиков.

Никакая написанная словами инструкция не может помочь описать поведение реального искателя, часто думающего спинным мозгом, типа «голосуй хвостом!»... и вообще, безуминки хватает, а игнорировать её глупо, и асессорам тоже, а представлена она ими заведомо не репрезентативно (интересно, что об этом думают те, кто дает им задания и пытается обработать это всё статистически).

Так что делайте выдачу для людей-реальных.

D
На сайте с 23.05.2002
Offline
173
#186
wolf:
Реверс-инжиниринг функции минимум о 163 переменных представляется весьма непростой задачей.

Вообще-то 163 это номер страницы. :)

wolf
На сайте с 13.03.2001
Offline
1183
#187
dweller:
Вообще-то 163 это номер страницы

Да что Вы говорите?

Наш подход использует значительное количество факторов - ранжирование коллекции BY.WEB основано на 163 компонентах.
D
На сайте с 23.05.2002
Offline
173
#188
wolf:
Да что Вы говорите?

Пардон, просто забавное совпадение:

Для многих поисковых систем
163

:)

106_8
На сайте с 03.04.2007
Offline
71
#189

Товарищи, выше, в этом топике, было озвучено мнение, что возможно Яндекс уже ввел Мадридский алгоритм выявления СЕО ссылок. Поэтому, теперь он, согласно выступлению, умеет определять коммерческие ссылки, и сводить их влияние к нулю в НЕКОММЕРЧЕСКИХ тематиках чуть ли не с вероятностью 97%.

А что нам мешает, просто провести микро "эксперимент" - взять пяток другой некоммерческих запросов (например "дифференциальное счисление" вас устроит? =) ) и согласно формулам (1) и (2) в пункте (2.4) увеличить параметры SEOlink каким-нибудь "трастовым", не испорченным СЕО, образовательным ресурсам, или сайтам каких-нибудь институтов?

Если ресурсы существенно взлетят в позициях, то, о Мадриде можно пока забыть, или хотя бы посмеяться над "97%".

Другое дело, что надо поставить опыт наиболее чистым образом, я пока этого не продумывал.

Но идея, на ваш взгляд, здравая?

Куплю площадки для статей (/ru/forum/216882)
den78ru
На сайте с 12.04.2006
Offline
395
#190
wolf:
Хм... Реверс-инжиниринг функции минимум о 163 переменных представляется весьма непростой задачей.
Turbo:
Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом.

Любопытно. :)

Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий