Проблема немного другая. И имя ей - алчность. Но не Яндекса.
На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.
Поздравляю!
А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?
А я понял Сегаловича с точностью до наоборот :)
Смысл в том, что личные вопросы (а тем более финансовые) следует решать в личке.
По этапу прохождения кворума - тут вообще все довольно интересно. Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже. Например, имеем запрос [a a b], где а - тяжелый термин. Должен ли пройти кворум пассаж [a b]? Если термин а в запросе учитывать дважды, то ведь может и не пройти.
А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности. Вармантов, конечно много, но прописать их надо в наборе всего единожды и навсегда. Да и пользоваться терминологией "один, два и много" тоже не запрещено :)
И все-таки идея пересекающихся пассажей мне кажется неверной. Вижу два пути - "лишнее" вхождение какого-либо термина в пассаже игнорируется:
1) только на этапе прохождения кворума
2) как на этапе прохождения кворума, так и на этапе ранжирования
Всё-таки IDF на этапе прохождения кворума и этапе ранжирования расчитываются по-разному (степенная функция в первом случае и логарифм во-втором) Что мешает внести и другие различия?
Я как бы тоже. Почему не сумма? Читаем у Сегаловича:
Под "собираются" мне явно видится сумма.
Именно про ее я и говорил.
Ну, там просто скобочку просто не туда поставили. А тут целый новый элемент :)
И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...
Есть какие-либо предпосылки для гипотезы о пересечении пассажей? Ведь в этом случае конкретный термин может быть учтен несколько раз.