Комментарии - john2007 - Профиль вебмастера - Форум об интернет-маркетинге

Большинство факторов - запросонезависимы?

9 ноября 2010, 09:30

Это, наверное, в формате .doc или .ppt :)

inductor:
Всем привет.

Не так давно сотрудники Яндекса говорили о том, что теперь размер формулы ранжирования увеличился до сотен мегабайт. Но ведь практически невозможно просчитывать в реальном времени релевантность документов по такой гигантской формуле. Получается, основная масса параметров рассчитывается отдельно и, следовательно, запросонезависима? Как вы думаете?

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 09:46

Pokerist:

а, стоп, еще тар что то там про имитацию поведенческих-маркетинговых по правой колонке вордстата писал :)

О, да...

Он не про правую колнку вордстата писал. Правая колонка вордстата - это прошлый век :)

Точнее, я не знаю, что он писал, но знаю, что писал тот, кого он пытался интерпретировать :)

Но это и до них обоих было понятно :)

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 09:40

di_max:
Вы б разделили как-нить поведенческие на 2 части:
1. По серпу
2. По сайтегу.
- Гуру, ну придумайте же какой-нить термин, что-ли.

Зачем?

Я бы разделил их на 2 другие части: индивидуальные и групповые.

Индивидуальные - это типа на сайт не кликают, позиции в минус.

Или на сайт много ходят не только из поисковых систем - позиции в плюс.

А групповые - это типа по запросу "пластиковые окна" информационные сайты типа wiki не выдавать, потому как народ кликает на них очень мало.

Или по запросу "компьютерные столы" выдавать сайты с корзиной (инет магазины), потому как она пользуется популярностью на сайтах, на которые переходят пользователи по запросу "компьютерные столы".

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 08:16

VHS:
john2007, я лишь предполагаю, что псевдометрик может быть бесчисленное множество, включать же в алгоритм ту или иную метрику следует лишь после математически доказанного влияния метрики на ранжирование. В исследовании YMW как раз проводится доказательство данной зависимости применительно к тестовой выборке.

Я и не спорю с Вами по этому вопросу :)

Я просто считаю, что математически доказанное положительное влияние фактора на ранжирование является необходимым, но не достаточным условием включения фактора в алгоритм.

Так как даже при математически доказанном положительном влиянии фактора мы можем иметь дело с фактором с ложной корреляцией.

john2007 добавил 28.10.2010 в 12:29

wolf:
А кто сей факт установил?

Это была шутка, по поводу фразы Pokerist, - влияют или не влияют поведенческие, какая разница, Эффектор же их проверяет :)

wolf:

Я уверен.

Pokerist:
нет, не уверен :) но говорят, что есть запрос, по которому можно отсечь поведенческие.

А вот я не уверен :)

Если есть запрос, который отсекает поведенческие, то это не означает, что он "проверяет" влияние поведенческих, так как этот запрос может отсекать еще много каких факторов.

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 08:07

Pokerist:
john2007, влияют - не влияют,а эффектор вон даже по запросу проверяет влияние поведенческих:)
Полагаю и что за запрос, догадаться можно

Не понял, что получается в варианте, если по факту они не влияют, но Эффектор при этом проверяет? :)

И потом, Вы уверены, что тот запрос, которым Эффектор "проверяет" влияние поведенческих, действительно является реальной проверкой влияния поведенческих?

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 07:44

VHS:
john2007, спасибо за разъяснения, однако мне кажется, что данная теория (ошибки) притянута "за уши" - ведь довольно много факторов псевдоестественности возможно придумать и внедрить в систему - зависимости подтвержденной цифрами вроде бы нет, да и явной так же не прослеживается.

Если Вы понимаете, что такое ложная корреляция, то должны понимать, что факторы с ложной корреляцией вполне могут улучшать среднее качество выдачи на большом числе сайтов.

Только, по-моему мнению, это не повод включать факторы с ложной корреляцией в ранжирование. На эту тему и был мой пример про ошибки, в дискуссии, к которой Вы присоединились :)

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 07:36

богоносец:
Что же такое «прямо»?

Прямо в данном случае антоним слова опосредованно.

Т.е. опосредованно через формулу ранжирования для целых групп сайтов одновременно, поведенческие в топе влияют.

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 06:33

Fresher, yusia, полностью подтверждает мою точку зрения, что значения поведенческих характеристик в выдаче сайтов прямо не влияет на их позиции. Спасибо за примеры! :)

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

28 октября 2010, 06:27

VHS:
Я про абсолютные ошибки, и про искажение русского языка, которыми изобилует немало сайтов различных некоммерческих тематик. При прочих равных сайты со словом "истчо" будут релевантее чем "еще"?

Я думаю, что на большом количестве сайтов:

1) Есть корреляция, чем больше сайт, тем больше на нем орфографических ошибок.

2) А еще я думаю, что в Яндексе (оценке его ассессоров) есть корреляция, чем больше сайт, тем документы с него релевантнее, при прочих равных условиях.

Если 1 и 2 верно, то на большом количестве сайтов будет корреляция - чем больше количество орфографических ошибок, на сайте, тем документы с него релевантнее (при прочих равных условиях).

Такая корреляция называется ложной

Но при этом фактор с ложной корреляцией при внесении его в матрикснет (да и вообще в любую модель) может улучшать среднее качество выдачи.

Но естественно, в выдаче в некоторых случаях станут появляться плохие сайты с большим количеством орфографических ошибок, что в некоторый случаях ухудшит качество выдачи.

Таким образом, прочих равных, сайты со словом "истчо" могут запросто оказать релевантее чем со словом "еще", при условии того, что в модели ранжирования используется фактор абсолютного количества орфографических ошибок.

А если в модели ранжирования используется фактор относительного количества орфографических ошибок, то сайты со словом "истчо" не будут релевантее чем со словом "еще", при прочих равных условиях.

Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

27 октября 2010, 23:19

VHS:
Т.е. релевантность сайтов типа удафф.ком будет выше сайтов поклонников Петросяна?

Релевантность больших сайтов, при прочих равных, скорее всего будет выше.

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Вышел новый Яндекс Браузер с YandexGPT и YandexART

john2007