А что "корень в знаменателе"? Это же и есть тошнота. А, понял, корень пропустил. :)
Р = вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(число_вхождений_самого_частого_слова или 7, если число_вхождений_самого_частого_слова меньше 7)
Для однословника :)
Р = вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / (число_вхождений_самого_частого_слова или 7, если число_вхождений_самого_частого_слова меньше 7)
Пока еще не жалко, но уже на пределе терпения. :)
Позвольте, позвольте, ... давайте разберемся. :)
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.
Ничего подобного, это издержки его стиля документирования собственной методики, которая, кстати, не имеет целостного изложения, а фрагментарно разбросана по форуму. Тошнота - мера спамности, а нормировка спамности по самому частому слову - просто текущий используемый подход.
Во-первых, Хрнс использует понятие тулбарного вИЦ, т.е. логарифмического эквивалента ранга документа.
Во-вторых, и это очень важно, в контентную часть релевантности вводится элемент, определяющий ссылочный ранг документа, а в ссылочной части такового (ранга) нет. Думаю, что к такой модели пришли исходя из-за сравнительного анализа с логическим ИЛИ (ортогональные запросы).
В-третьих, что еще важней, :) наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности. Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу. :)
Возможно, что не совсем так просто.
Насколько мне хватает понимания логики Хрнс, они формулу релевантности по контенту пытаются интерпретировать как одновариантную (универсальную) мультипликативную модель зависящую от глобальных сущностей - вИЦ, число_найденных_пассажей, вес_пассажа, спамность_документа. Спамность и обозвали тошнотой, поскольку термин был необходим, а разбираться в IR кулибиным нет времени. А как оценивать спамность (нормировать по tfmax/длине или по функции от нескольких слов) уже другая проблема.
Точно, Вы правы. В Запорожье жил в прошлой жизни, подзабыл уже. :)
Поздравляю! Успехов в работе, счастья в делах сердечных!
Поздравляю! Самые наилучшие пожелания!
Водка без пива выброшенные деньги? :)
Просто Немировым заспамлены московские магазины, поэтому Хортица смотрится как оригинальная украинская водка.
parapet, Вам спошлить неймется? Сами когда-то будете на 95% ...
Это Запорожье. Хортиця - остров. Город - на левом берегу, Хортице и правом берегу. Между левым берегом и Хортицей - Днирогэс. На самой Хортице известный дуб, под которым казаки туркам письмо писали, там где их кое-куда послали. Т.е. бренд использует ассоциации с "запорожской сечью".