Виктор Иваныч говорит - отрихтуем 😂
Дык, в том-то и дело, что нормировки бывают разные. И далеко не все они оперируют понятием размера документа. А Вы размер документа в качестве нормировки подразумеваете по умолчанию. И совершенно напрасно. Яндекс вот, к примеру, нормирует по той самой тошноте, которой посвящен топик, а не по размеру документа.
Теперь читаем определения. Серьезную литературу пока трогать не будем, отшлю к научно-популярной:
А вот про отношение сказано далее в том смысле, что
То есть TF может быть нормализована, и одним из способов нормировки является нормировка по длине документа, т.е. то, что Вы называете "Отношение числа вхождения некоторого слова к общему количеству слов в документе". Но это лишь один из способов. И далеко не факт, что именно он используется поисковиками. И даже факт, что не используется Яндексом. На досуге советую поискать некоторые популярные в IR нормировки (некоторые из них упоминает Сегалович в ствоей статье http://company.yandex.ru/articles/romip2004.xml ). И попробовать вычислить зависимость от той величины, которой Вы оперируете :)
Что есть в Вашем понимании частота в данном случае?
И что по-Вашему есть TF?
Ну, тогда с TF давайте разбираться. Вы и ее в процентах предлагаете измерять? :)
Я - наемный работник, и никогда этого не скрывал. Только какое это отношение имеет к теме о продажности своих слов? Поди, купи ссылку у меня в подписи... ;) Или так, просто огрызнулся в стиле "Сам дурак"? :)
greenwood, а ты за сколько чужую ссылку себе в подпись суешь? Поди, подешевле пяти килобаксов-то будет... 😂
А объяснить хоть как-нибудь сей тезис можете? Для начала поясните хотя бы, почему тошноту Вы считаете в процентах.
Человеку свойственно сомневаться... :)
Ни на прямую, ни на кривую. А вообще, то, что даже после вполне доходчивых объяснений Миныча и ХРНС народ упорно продолжает им не верить и оперирует понятием "плотность" - это наглядный индикатор уровень профессионализма современных оптимизаторов. Увы...