wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
Doc Spoc:
проблема есть и имя ей - ЯНДЕКС

Проблема немного другая. И имя ей - алчность. Но не Яндекса.

Кот:
Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов.

На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

Поздравляю!

Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно

А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?


Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием

Расчет веса словопозиции позволяет максимально точно учесть сходство пассажа и запроса. При этом выигрыш получит документ, у которого более «тяжелые», смыслоразличительные слова окажутся в А контексте, более похожем на контекст в запросе.


Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

А я понял Сегаловича с точностью до наоборот :)

Tj93:
или просто внесли определенные правила и поправки?

Смысл в том, что личные вопросы (а тем более финансовые) следует решать в личке.

Кот:
Первое, имхо, логичнее т.к. получится учесть веса повторяющихся терминов при вычислении веса пассажа. Но возникнут сложности с "табулированным набором коэффициентов" - он же не резиновый, на все варианты "повторяемости терминов" коэффициентов, имхо, не напасешься В случае использования пересекающихся пассажей такая проблема не стоит.

По этапу прохождения кворума - тут вообще все довольно интересно. Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже. Например, имеем запрос [a a b], где а - тяжелый термин. Должен ли пройти кворум пассаж [a b]? Если термин а в запросе учитывать дважды, то ведь может и не пройти.

А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности. Вармантов, конечно много, но прописать их надо в наборе всего единожды и навсегда. Да и пользоваться терминологией "один, два и много" тоже не запрещено :)

И все-таки идея пересекающихся пассажей мне кажется неверной. Вижу два пути - "лишнее" вхождение какого-либо термина в пассаже игнорируется:

1) только на этапе прохождения кворума

2) как на этапе прохождения кворума, так и на этапе ранжирования

Всё-таки IDF на этапе прохождения кворума и этапе ранжирования расчитываются по-разному (степенная функция в первом случае и логарифм во-втором) Что мешает внести и другие различия?

Кот:
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен

Я как бы тоже. Почему не сумма? Читаем у Сегаловича:


Наконец, веса словопозиций, взвешенные по сходству их полного контекста, «собираются» обратно и образуют вес документа.

Под "собираются" мне явно видится сумма.

Кот:
По ходу, именно про это Вольф и говорил, имхо

Именно про ее я и говорил.

euhenio:
ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь

Ну, там просто скобочку просто не туда поставили. А тут целый новый элемент :)

И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...

Кот:
Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться.

Есть какие-либо предпосылки для гипотезы о пересечении пассажей? Ведь в этом случае конкретный термин может быть учтен несколько раз.

Всего: 24501