euhenio

euhenio
Рейтинг
357
Регистрация
21.09.2001
Должность
ИП: продвижение и создание сайтов, увеличение конверсии

MoMM, извиняюсь, если упустил...

Судя по тому, что у каждого участника свой CTR, у каждого участника был свой баннер? А баннеры не перемешивались между участниками? Так тогда это прилично снижает ценность конкурса - может, просто чей-то баннер был более целевым.

Кот:
Т.е. документы-предложения [aa bb cc dd] и [aa aa bb cc dd] будут иметь одинаковый вес по отношению к запросу [aa bb]?

-ну, я думаю, что должен выцепиться более релевантный фрагмент "aa bb", если переколдовка запроса была aa & bb

Кот:
Да, в каждом. Но только после того, как отработал механизм кворума. И я об этом писал:

-а после того, как "отработал механизм кворума", у каждого пассажа возник свой вес, зависящий в т.ч. и от расстояний между словами. И как предполагается выцепить из этого веса ту долю, которую туда вложило конкретное слово?

Отнять и поделить? :)

wolf:
не нравится мне гипотеза с перекрывающимися пассажами

-вступай в наш альянс. Мне тоже не нравится. Пришли в качестве вступительного взноса 666 маленьких пассажей или один очень большой :)

Кот:
От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.

-вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей? Если да, то тогда во фразе А Б А по запросу А Б документ может не найтись, т.к. вес слова Б занижен - он входит в два перекрывающихся пассажа. Т.е., ни первый, ни второй пассаж по отдельности не будут найдены за счет заниженного веса слова Б. Но это нелогично - ведь фрагмент А Б есть в документе.

Ну или так. Есть запрос ноутбуки S123345, который переколдовывается обычно как ноутбуки && S123345 - в документе. Если вебмастер употребил фразу ноутбуки S123345 10 раз в документе - это 10 раз ноутбуки и 10 раз S123345. Итого вес каждой фразы (которых получается 100) уменьшается в 100 раз, и каждый фрагмент не найден.

Я думаю, что пересекающихся пассажей не бывает, и либо документ разрезается на Н неперекрывающихся пассажей тупо по порядку следования слов, либо выбирается один наиболее релевантный пассаж. Но первый вариант, имхо, разумнее.

Калинин:
Я уже забыл - варианты чего? Серьезно, забыл.

-варианты обоснования в случае ответов да-нет: :)

А потом я попробую на пальцах объяснить (при любом варианте ответов), вкусовщина ли неприятие проституции как явления, или многажды обдуманная позиция.

Кот, ты про слово ее, мне кажется, Вольф вряд ли про него говорил.

Но если про ее, то зачем его отдельно вписывать. а другие слова прочерками обозначать? ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь :)

wolf:
В общем, я как бы почти готов согласиться со сторонниками запросозависимого пассажа. Меня смущают только следующие вещи:

1) Получается, что в случае условия "слова должны быть в одном документе", получаем один единственный пассаж, включающий в себя все упоминания терминов запроса в документе.

2) Если, как говорит, Женя Трофименко, все левые слова из пассажей выкидываются, то что в примере пассажей из http://company.yandex.ru/articles/romip2004.xml :

Цитата:
Предположим, ранжирование пассажей рассчитывается без взвешивания каждой позиции. Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.

делают слова ee, которых нет в запросе?

по моему мнению

1. в принципе, да, единственно есть скользкий момент (не только с поиском в документе, и в предложении мб) - когда одинаковых уникальных найденных слов, удовлетворяющих контекстным ограничениям, больше одного. Я думаю, что на один пассаж одно уник. слово должно учитываться один раз (если слово в запросе одно), иначе можно "левыми" словами забить вес пассажа так, что пассаж пройдет кворум и будет найден. А реально неполный пассаж не находится. Подсветчик не считаем - он все выделяет.

2. Серег, фтыкай в текст, который сам цитируешь: :)

Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово

-все 4 слова есть в запросе :)

PS Ну или м.б. ты имел в виду расстояния между найденными 4 словами? Это как раз тоже наводит на вывод, что остальные слова только разбавляют пассаж, играют роль дырок между найденными словами

И еще надо ввернуть про дорвейщиков, наступающих из Китая мелкими группами по 2 млн. человек. :)

Anryk:
Или, даже ковыряние в носу партнера?

-да ну, заразиццо можно. ЗПКН - заболевания, передающиеся через ковыряние в носу.

Калинин, нет.

Так и ты приведи оба варианта своего ответа, если не лень :)

Всего: 4720