Отлично. Там же чёрным по белому сказано, что TF - это число вхождений леммы в документ. Как это соотносится с Вашими "по определению"? ;)
Какие слова? Какого ключа? Корректно выражаться религия не позволяет, что ли? Да, и вообще выражение "слова в леммах" ускользает за пределы моего понимания...
Это не с подачки Миныча. Это с подачки теории Information Retrieval
Если не затруднит, подтвердите ссылочкой сие утверждение.
Нет там не так написано. Вы сначала нормируете TF по длине документа (иначе интерпретировать фразу "TF=0.05 или 5%" я не могу). А потом второй раз нормируете по тошноте. Двойная нормировка - не слишком ли? ;)
В русскоязычной Википедии, извиняюсь, по этому поводу фигня написана. Они, так же как и Вы, под TF подразумевают её простейшую нормировку по длине документа. Почитайте более корректную англоязычную версию:
Чуете разницу между the number of times и Вашими процентами?
И только потом идет пример простейшей нормировки, которую Вы принимаете собственно за TF:
Вы уж, будьте любезны, хоть как-то расшифровывайте свои сентенции. Что, к примеру, есть "низкий вес ключа в анкор-файле"?
А кто-нибудь документально фиксировал эти "перенасыщение" и "разжижение"? Откуда хоть Вы эти термины взяли?
P.S. Вспомнились "одержание" и "всеобщее заболачивание" из "Улитки на склоне" Стругацких :)
Не путайте апдейт с переиндексацией документов.
Во-первых, понизишь, а во-вторых, не совсем уверен в практической ценности данного шага. Хотя, конечно, некоторая ценность в определенных ситуациях может быть. Но это уже очень изощреннно... :)
Я где-то говорил про конкретный анкор-лист? Я говорил о корпусе анкор-файлов, который является совокупностью всех анкор-листов.
Предположить можно, конечно, всё, что угодно... Только надо как-то всё-таки гипотезы проверять...
Кстати, в анкорном ранжировании есть некоторые факторы, влияющие на ранжирование, которых нет в текстовом. Это может вносить искажения во всякие эксперименты, если о них не знать и не учитывать их влияние. Так что, калькировать модель текстового ранжирование на анкорное - не совсем корректно.
Конкурента вы не понизите. IDFa конкретного термина - глобальная характеристика, она для всех одинаковая :)