Читаем первоисточники:
;)
А может ничего не модифирует, а просто начинает ощущаться влияние параметров, который вы в своей модели не учли? Просто на определенном наборе входных данных вы не видели их влияния, но рано или поздно нактнулись на наборы, где оно есть? ;)
Поправлю - не число найденных пассажей, а число найденных терминов, и не вес пассажа, а вес термина.
К тому же ХРНС четко указывает на характер тошноты как фукнцию от частоты максимального термина.
Все остальные документные характеристики его модели агрегируются в понятии ВИЦ.
Не факт, что его ВИЦ - чистый параметр, т.е. классический ВИЦ, который расчитывается на основе информации о ссылках, его могут "засорять" другие документные характеристики, например длина документа в словах, которую по логике надо было бы добавить в тошноту.
К сожалению, загвоздка в том, что ВИЦ нам априори неизвестен, в отличие от других факторов (число терминов, вес термина и т.д.). Мы не можем его зафиксировать, не можем подобрать два документа с одинаковым ВИЦ'ем (конечно, чисто интуитивно мы можем предположить, что два документа с одинаковым набором входящих ссылок будут иметь одинаковый ВИЦ, но проверить это все равно не сможем) и т.д. Получается, что для "очищения" ВИЦ нам надо последовательно проверять гипотезы об учете различных документных характеристик, которые мы можем измерить.
Кстати, никто не обратил внимание, что топикстартер был послан как-то по-женски? Думаю, мужчина вряд ли бы стал употреблять термин "господин хам". Так что, похоже, часть Платонов ходит в юбке. ;)
Да не надо никаких альтернативных терминов. С лёгкой руки Миныча термин "тошнота", как обозначение антиспамовой нормировки tf по tfmax уже прочно вписался в обиход.
Думаю, даже, если бы Вы не принимали никаких действий по "спасению упопающего", результат был бы тем же, т.е. он бы всплыл. :)
Вот-вот. Если почитать жития православных святых, то Шао-Линь отдыхает.
Язык сломаешь :)
Зря так думаете. ;)
Тег <noindex> 😂