Само собой, привязано. Как же иначе то? Только вот когда частоту (в данном случае - безразмерную величину) и количество (вполне размерную) называют синонимами, это мне представляется неправильным ;) Я математик, а не философ.
Если Вы имеете в виду пост топикстартера, то смысл его от меня ускользает.
TF - это не частота. Это количество употреблений. Непонимание этого факта и приводит к недоразумениям. Все переводят английское frequency самым распространенным вариантом "частота". Но забывают, что у него есть и еще один перевод - "частотность". В лингвистике частотностью лексемы называется
Точно также и IDF корректней переводить как "обратная частотность"
Для меня в первую очередь интерес составляет подтверждение гипотез. И только потом их использование. А не оперирование неподтвержденными ;)
Если у них разные тематики, то как возникает пересечение?
Похоже на то :) Теперь я понял, почему народ так живо интересуется обратными частотами... :)
Да, я когда-то высказывал подобную гипотезу. Но она осталась всего лишь гипотезой :)
Ну да, конечно, тут у каждого второго в друганах Платоша Щукин числится 😂
Каким образом задавит? Вы считаете, что нормировка TF по анкор-файлу осуществляется по весу самого тяжелого термина? Или по самому тяжелому произведению веса на количество употреблений термина?
Покажите мне, как Ваша гипотетическая формула
объясняет "перенасыщение"? С учетом того, что tfi - это число вхождений i-го термина
Лепим все анкоры одинаковые и однословные, состоящие из этого термина. В итоге имеем максимум функции TFнорм, т.к. при этом минимизируем величину N (т.к. левых терминов в анкор-файле нет) и максимизируем tfi.
Ок, примем такую гипотезу. А почему - можете обосновать?
Да уж, чем дальше в лес, тем толще партизаны. Что значит это "слова, которые не являются ключевыми в запросе"? То есть Вы делите слова из запроса на ключевые и неключевые? Честное слово, я устал продираться сквозь подобное черезчур вольное жонглирование в терминологии... Я не понимаю этот язык...