Это принципиальный вопрос. В Ваших терминах, действительно, получается, что веса этих двух документов-предложений будут равны. Но, интуитивно, не кажется ли Вам, что документ [aa aa bb cc dd] желательно поместить в СЕРПе выше документа [aa bb cc dd] по запросу [aa bb] (при прочих равных)?
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен. Прошу пояснить, по возможности.
После того, как отработал механизм кворума, никакой вес у пассажей еще не возник. Вес у пассажей возникает позже, на этапе ранжирования (в терминах статьи).
euhenio, я особо не настаиваю на описанном механизме. Но скажите, Вы считаете, что это такая большая проблема - распределить каким-либо образом вес термина по пассажам?
Ну так, веса у этих документов-предложений одинаковые будут или нет?
Т.е. документы-предложения [aa bb cc dd] и [aa aa bb cc dd] будут иметь одинаковый вес по отношению к запросу [aa bb]?
Это как с мелкомягкими? Всем не нравится, но все пользуются? :)
Да, в каждом. Но только после того, как отработал механизм кворума. И я об этом писал:
И еще я там написал: "Скажем таким образом... " , т.е. я не заострял на этом внимание, просто показал, что не сложно нивелировать негативные последствия многократного учета одного и того же термина.
Ок. Вычеркиваем! :)
По ходу, именно про это Вольф и говорил, имхо. Впрочем, он сам уточнит, я думаю.
:) Я это и имел в виду, когда говорил:
имхо, имелось в виду, что и [aa __ BB __ cc dd ee], и [aa BB cc dd __ __ ee] названы в статье пассажами. И если считать пассаж запросозависимым, то при запросе [aa BB cc dd] в эти пассажи не должны были войти термины ее
От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.
1). Возьмем Ваш пример. Имеем предложение [aa bb cc aa] и запрос [aa bb]. Я предполагаю, что формировать пассаж [aa bb _ aa] некорректно именно из-за того, что термин аа будет учтен дважды на этапе прохождения кворума. В результате может быть сильно искажена идея кворума. Возникнет опасность, что пассаж сможет преодолеть кворум не потому, что в нем имеются "тяжелые", смыслоразличительные термины, а только из-за того, что присутствуют в большом кол-ве "легкие" слова.
Другими словами, можно предположить, что пассаж формируется таким образом, что каждое слово из запроса входит в него не более одного раза.
2). Рассмотрим два документа-предложения:
[aa bb cc dd] и [aa aa bb cc dd]
где aa - "тяжелый", смыслоразличительный термин, bb cc dd - термины с относительно невысоким весом.
Согласитесь, что при запросе [aa bb], не плохо было бы за вторым документом признать больший вес, чем за первым. В частности, механизмом, позволяющим это сделать, может быть механизм пересекающихся пассажей.
Весной, на форуме у euhenio.
Должно. Считаю этот вопрос самым важным, ключевым.
wolf, возможно, Вы все сильно упрощаете. Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться. Если допустить, что пассажи формируются по сложным правилам, допускающим пересечения, то, как вариант, предложение [aa bb cc aa] при запросе [aa bb] разобьется на два пассажа [aa bb] и [bb _ aa]. Что находится в согласии с подсветкой, кстати.
Как вариант - порождаются несколько пассажей. Это уже обсуждатось в свое время.
К сожалению, мы вынуждены в своих рассуждениях отталкиваться от тех скудных сведений, что содержатся в официальных (и не очень) документах. Но изначально предполагая, что все эти сведения строго соответствуют действительности, мы пришли к некоторым противоречиям :) Самое время предположить, что (сознательно или нет) нас водят за нос :)