Кот

Рейтинг
74
Регистрация
03.02.2005
euhenio:
-вообще да, думаю, одинаковые. Но я бы все равно при оптимизации написал побольше слова aa - на всякий случай. Да и бб добавил бы.

Это принципиальный вопрос. В Ваших терминах, действительно, получается, что веса этих двух документов-предложений будут равны. Но, интуитивно, не кажется ли Вам, что документ [aa aa bb cc dd] желательно поместить в СЕРПе выше документа [aa bb cc dd] по запросу [aa bb] (при прочих равных)?

euhenio:
Будем предполагать (думаю, разумно), что вес двусовных пассажей пропорционален произведению веса А на вес Б.

Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен. Прошу пояснить, по возможности.

euhenio:
-а после того, как "отработал механизм кворума", у каждого пассажа возник свой вес, зависящий в т.ч. и от расстояний между словами. И как предполагается выцепить из этого веса ту долю, которую туда вложило конкретное слово?

После того, как отработал механизм кворума, никакой вес у пассажей еще не возник. Вес у пассажей возникает позже, на этапе ранжирования (в терминах статьи).

euhenio, я особо не настаиваю на описанном механизме. Но скажите, Вы считаете, что это такая большая проблема - распределить каким-либо образом вес термина по пассажам?

euhenio:
-ну, я думаю, что должен выцепиться более релевантный фрагмент "aa bb", если переколдовка запроса была aa & bb

Ну так, веса у этих документов-предложений одинаковые будут или нет?

euhenio:
Я думаю, что пересекающихся пассажей не бывает

Т.е. документы-предложения [aa bb cc dd] и [aa aa bb cc dd] будут иметь одинаковый вес по отношению к запросу [aa bb]?

euhenio:
Мне тоже не нравится

Это как с мелкомягкими? Всем не нравится, но все пользуются? :)

euhenio:
вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей?

Да, в каждом. Но только после того, как отработал механизм кворума. И я об этом писал:

Кот:
уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа)

И еще я там написал: "Скажем таким образом... " , т.е. я не заострял на этом внимание, просто показал, что не сложно нивелировать негативные последствия многократного учета одного и того же термина.

wolf:
И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...

Ок. Вычеркиваем! :)

euhenio:
Кот, ты про слово ее, мне кажется Вольф вряд ли про него говорил.

По ходу, именно про это Вольф и говорил, имхо. Впрочем, он сам уточнит, я думаю.

euhenio:
с ошибкой в формуле расчета веса кворума

:) Я это и имел в виду, когда говорил:

Кот:
Но изначально предполагая, что все эти сведения строго соответствуют действительности, мы пришли к некоторым противоречиям. Самое время предположить, что (сознательно или нет) нас водят за нос
Что-то мне начинает казаться, что все эти ошибки... и не ошибки вовсе :)
euhenio:
все 4 слова есть в запросе

имхо, имелось в виду, что и [aa __ BB __ cc dd ee], и [aa BB cc dd __ __ ee] названы в статье пассажами. И если считать пассаж запросозависимым, то при запросе [aa BB cc dd] в эти пассажи не должны были войти термины ее

wolf:
Ведь в этом случае конкретный термин может быть учтен несколько раз.

От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.

wolf:
Есть какие-либо предпосылки для гипотезы о пересечении пассажей?

1). Возьмем Ваш пример. Имеем предложение [aa bb cc aa] и запрос [aa bb]. Я предполагаю, что формировать пассаж [aa bb _ aa] некорректно именно из-за того, что термин аа будет учтен дважды на этапе прохождения кворума. В результате может быть сильно искажена идея кворума. Возникнет опасность, что пассаж сможет преодолеть кворум не потому, что в нем имеются "тяжелые", смыслоразличительные термины, а только из-за того, что присутствуют в большом кол-ве "легкие" слова.

Другими словами, можно предположить, что пассаж формируется таким образом, что каждое слово из запроса входит в него не более одного раза.

2). Рассмотрим два документа-предложения:

[aa bb cc dd] и [aa aa bb cc dd]

где aa - "тяжелый", смыслоразличительный термин, bb cc dd - термины с относительно невысоким весом.

Согласитесь, что при запросе [aa bb], не плохо было бы за вторым документом признать больший вес, чем за первым. В частности, механизмом, позволяющим это сделать, может быть механизм пересекающихся пассажей.

wolf:
Возможно, пропустил.

Весной, на форуме у euhenio.

wolf:
Должно быть некое правило формирования пассажей.

Должно. Считаю этот вопрос самым важным, ключевым.

wolf:
Логично предположить в первом приближении на основании статьи Сегаловича, что правило следующее - как только в отрезке текста, удовлетворяющем контектсным ограничениям запроса (в документе, в предложении, на расстоянии в N предложений или слов, и т.д.) встретятся достаточное количество слов из запроса, чтобы преодолеть кворум, то пассаж считаем сформированным и начиная со следующей словопозиции ищем новый пассаж. Как бы логично. Но давайте рассмотрим конкретный пример.

Фраза [aa bb]. Условие - слова должны встречаться в одном предложении.

Имеем предложение [aa bb cc aa]. Как оно разобъется на пассажи? На пассаж [aa bb] (он проходит по кворуму, и начиная со слова сс по сделанному выше предположению можно начинать искать следующий пассаж, но конструкция [cc aa] уже по кворуму не проходит)? Или же все-таки на пассаж [aa bb _ aa]? Наблюдения за подсветкой говорят в пользу второго. В общем, для меня остается неясным правило формирования запросозависимого пассажа. Каков критерий того, что пассаж полностью сформирован?

wolf, возможно, Вы все сильно упрощаете. Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться. Если допустить, что пассажи формируются по сложным правилам, допускающим пересечения, то, как вариант, предложение [aa bb cc aa] при запросе [aa bb] разобьется на два пассажа [aa bb] и [bb _ aa]. Что находится в согласии с подсветкой, кстати.

wolf:
1) Получается, что в случае условия "слова должны быть в одном документе", получаем один единственный пассаж, включающий в себя все упоминания терминов запроса в документе.

Как вариант - порождаются несколько пассажей. Это уже обсуждатось в свое время.

wolf:
2) Если, как говорит, Женя Трофименко, все левые слова из пассажей выкидываются, то что в примере пассажей из http://company.yandex.ru/articles/romip2004.xml делают слова ee, которых нет в запросе?

К сожалению, мы вынуждены в своих рассуждениях отталкиваться от тех скудных сведений, что содержатся в официальных (и не очень) документах. Но изначально предполагая, что все эти сведения строго соответствуют действительности, мы пришли к некоторым противоречиям :) Самое время предположить, что (сознательно или нет) нас водят за нос :)

Всего: 174