john2007

john2007
Рейтинг
173
Регистрация
26.03.2007

Это, наверное, в формате .doc или .ppt :)

inductor:
Всем привет.

Не так давно сотрудники Яндекса говорили о том, что теперь размер формулы ранжирования увеличился до сотен мегабайт. Но ведь практически невозможно просчитывать в реальном времени релевантность документов по такой гигантской формуле. Получается, основная масса параметров рассчитывается отдельно и, следовательно, запросонезависима? Как вы думаете?
Pokerist:

а, стоп, еще тар что то там про имитацию поведенческих-маркетинговых по правой колонке вордстата писал :)

О, да...

Он не про правую колнку вордстата писал. Правая колонка вордстата - это прошлый век :)

Точнее, я не знаю, что он писал, но знаю, что писал тот, кого он пытался интерпретировать :)

Но это и до них обоих было понятно :)

di_max:
Вы б разделили как-нить поведенческие на 2 части:
1. По серпу
2. По сайтегу.
- Гуру, ну придумайте же какой-нить термин, что-ли.

Зачем?

Я бы разделил их на 2 другие части: индивидуальные и групповые.

Индивидуальные - это типа на сайт не кликают, позиции в минус.

Или на сайт много ходят не только из поисковых систем - позиции в плюс.

А групповые - это типа по запросу "пластиковые окна" информационные сайты типа wiki не выдавать, потому как народ кликает на них очень мало.

Или по запросу "компьютерные столы" выдавать сайты с корзиной (инет магазины), потому как она пользуется популярностью на сайтах, на которые переходят пользователи по запросу "компьютерные столы".

VHS:
john2007, я лишь предполагаю, что псевдометрик может быть бесчисленное множество, включать же в алгоритм ту или иную метрику следует лишь после математически доказанного влияния метрики на ранжирование. В исследовании YMW как раз проводится доказательство данной зависимости применительно к тестовой выборке.

Я и не спорю с Вами по этому вопросу :)

Я просто считаю, что математически доказанное положительное влияние фактора на ранжирование является необходимым, но не достаточным условием включения фактора в алгоритм.

Так как даже при математически доказанном положительном влиянии фактора мы можем иметь дело с фактором с ложной корреляцией.

john2007 добавил 28.10.2010 в 12:29

wolf:
А кто сей факт установил?

Это была шутка, по поводу фразы Pokerist, - влияют или не влияют поведенческие, какая разница, Эффектор же их проверяет :)

wolf:

Я уверен.
Pokerist:
нет, не уверен :) но говорят, что есть запрос, по которому можно отсечь поведенческие.

А вот я не уверен :)

Если есть запрос, который отсекает поведенческие, то это не означает, что он "проверяет" влияние поведенческих, так как этот запрос может отсекать еще много каких факторов.

Pokerist:
john2007, влияют - не влияют,а эффектор вон даже по запросу проверяет влияние поведенческих:)
Полагаю и что за запрос, догадаться можно

Не понял, что получается в варианте, если по факту они не влияют, но Эффектор при этом проверяет? :)

И потом, Вы уверены, что тот запрос, которым Эффектор "проверяет" влияние поведенческих, действительно является реальной проверкой влияния поведенческих?

VHS:
john2007, спасибо за разъяснения, однако мне кажется, что данная теория (ошибки) притянута "за уши" - ведь довольно много факторов псевдоестественности возможно придумать и внедрить в систему - зависимости подтвержденной цифрами вроде бы нет, да и явной так же не прослеживается.

Если Вы понимаете, что такое ложная корреляция, то должны понимать, что факторы с ложной корреляцией вполне могут улучшать среднее качество выдачи на большом числе сайтов.

Только, по-моему мнению, это не повод включать факторы с ложной корреляцией в ранжирование. На эту тему и был мой пример про ошибки, в дискуссии, к которой Вы присоединились :)

богоносец:
Что же такое «прямо»?

Прямо в данном случае антоним слова опосредованно.

Т.е. опосредованно через формулу ранжирования для целых групп сайтов одновременно, поведенческие в топе влияют.

Fresher, yusia, полностью подтверждает мою точку зрения, что значения поведенческих характеристик в выдаче сайтов прямо не влияет на их позиции. Спасибо за примеры! :)

VHS:
Я про абсолютные ошибки, и про искажение русского языка, которыми изобилует немало сайтов различных некоммерческих тематик. При прочих равных сайты со словом "истчо" будут релевантее чем "еще"?

Я думаю, что на большом количестве сайтов:

1) Есть корреляция, чем больше сайт, тем больше на нем орфографических ошибок.

2) А еще я думаю, что в Яндексе (оценке его ассессоров) есть корреляция, чем больше сайт, тем документы с него релевантнее, при прочих равных условиях.

Если 1 и 2 верно, то на большом количестве сайтов будет корреляция - чем больше количество орфографических ошибок, на сайте, тем документы с него релевантнее (при прочих равных условиях).

Такая корреляция называется ложной

Но при этом фактор с ложной корреляцией при внесении его в матрикснет (да и вообще в любую модель) может улучшать среднее качество выдачи.

Но естественно, в выдаче в некоторых случаях станут появляться плохие сайты с большим количеством орфографических ошибок, что в некоторый случаях ухудшит качество выдачи.

Таким образом, прочих равных, сайты со словом "истчо" могут запросто оказать релевантее чем со словом "еще", при условии того, что в модели ранжирования используется фактор абсолютного количества орфографических ошибок.

А если в модели ранжирования используется фактор относительного количества орфографических ошибок, то сайты со словом "истчо" не будут релевантее чем со словом "еще", при прочих равных условиях.

VHS:
Т.е. релевантность сайтов типа удафф.ком будет выше сайтов поклонников Петросяна?

Релевантность больших сайтов, при прочих равных, скорее всего будет выше.

Всего: 2535