Это, наверное, в формате .doc или .ppt :)
О, да...
Он не про правую колнку вордстата писал. Правая колонка вордстата - это прошлый век :)
Точнее, я не знаю, что он писал, но знаю, что писал тот, кого он пытался интерпретировать :)
Но это и до них обоих было понятно :)
Зачем?
Я бы разделил их на 2 другие части: индивидуальные и групповые.
Индивидуальные - это типа на сайт не кликают, позиции в минус.
Или на сайт много ходят не только из поисковых систем - позиции в плюс.
А групповые - это типа по запросу "пластиковые окна" информационные сайты типа wiki не выдавать, потому как народ кликает на них очень мало.
Или по запросу "компьютерные столы" выдавать сайты с корзиной (инет магазины), потому как она пользуется популярностью на сайтах, на которые переходят пользователи по запросу "компьютерные столы".
Я и не спорю с Вами по этому вопросу :)
Я просто считаю, что математически доказанное положительное влияние фактора на ранжирование является необходимым, но не достаточным условием включения фактора в алгоритм.
Так как даже при математически доказанном положительном влиянии фактора мы можем иметь дело с фактором с ложной корреляцией.
john2007 добавил 28.10.2010 в 12:29
Это была шутка, по поводу фразы Pokerist, - влияют или не влияют поведенческие, какая разница, Эффектор же их проверяет :)
А вот я не уверен :)
Если есть запрос, который отсекает поведенческие, то это не означает, что он "проверяет" влияние поведенческих, так как этот запрос может отсекать еще много каких факторов.
Не понял, что получается в варианте, если по факту они не влияют, но Эффектор при этом проверяет? :)
И потом, Вы уверены, что тот запрос, которым Эффектор "проверяет" влияние поведенческих, действительно является реальной проверкой влияния поведенческих?
Если Вы понимаете, что такое ложная корреляция, то должны понимать, что факторы с ложной корреляцией вполне могут улучшать среднее качество выдачи на большом числе сайтов.
Только, по-моему мнению, это не повод включать факторы с ложной корреляцией в ранжирование. На эту тему и был мой пример про ошибки, в дискуссии, к которой Вы присоединились :)
Прямо в данном случае антоним слова опосредованно.
Т.е. опосредованно через формулу ранжирования для целых групп сайтов одновременно, поведенческие в топе влияют.
Fresher, yusia, полностью подтверждает мою точку зрения, что значения поведенческих характеристик в выдаче сайтов прямо не влияет на их позиции. Спасибо за примеры! :)
Я думаю, что на большом количестве сайтов:
1) Есть корреляция, чем больше сайт, тем больше на нем орфографических ошибок.
2) А еще я думаю, что в Яндексе (оценке его ассессоров) есть корреляция, чем больше сайт, тем документы с него релевантнее, при прочих равных условиях.
Если 1 и 2 верно, то на большом количестве сайтов будет корреляция - чем больше количество орфографических ошибок, на сайте, тем документы с него релевантнее (при прочих равных условиях).
Такая корреляция называется ложной
Но при этом фактор с ложной корреляцией при внесении его в матрикснет (да и вообще в любую модель) может улучшать среднее качество выдачи.
Но естественно, в выдаче в некоторых случаях станут появляться плохие сайты с большим количеством орфографических ошибок, что в некоторый случаях ухудшит качество выдачи.
Таким образом, прочих равных, сайты со словом "истчо" могут запросто оказать релевантее чем со словом "еще", при условии того, что в модели ранжирования используется фактор абсолютного количества орфографических ошибок.
А если в модели ранжирования используется фактор относительного количества орфографических ошибок, то сайты со словом "истчо" не будут релевантее чем со словом "еще", при прочих равных условиях.
Релевантность больших сайтов, при прочих равных, скорее всего будет выше.