Сейчас сложнее, ибо стали наказывать за погрешность в чутье.
Плотность есть характеристика напрямую зависящая от длины документа. Это линейно-зависимая переменная.
Базисными тут являются: кол-во вхождений, длина документа и константы (если предположить, что формула схожа с этой http://mexboy.ru/wp-includes/images/tf_romip.gif).
Искать нужно не идеальную плотность и даже не идеальный TF, а идеальное произведение TF*IDF, что на порядок осложняет нашу задачу.
Да лан, чё-нибудь придумаем. :)
Типо того.
Просто мне лень сейчас рисовать графики и подробно объяснять.
Но если на пальцах: ранее при увеличении плотности увеличивалась релевантность (при фиксированных коэффициентах и IDF). Сначала релевантность хорошо росла, а потом всё меньше и меньше. В итоге, при большом значении увеличение плотности не влияло ни в лучшую ни в худшую сторону.
Теперь при достижении "точки кипения" релевантность начинает падать. И чем больше её значение тем больше падение.
А если учесть, что IDF для разных запросов различен, то это объясняет тот факт, что суперпопулярные тематики не так уж и сильно перетрясло.
devzev добавил 27.01.2010 в 19:15
Ну в идеале нужно сделать плотность минимальной. Потом плавно увеличивать и смотреть на результат. Как только сайт стал уходить вниз - снова её уменьшать на одно-два значения. Т.е. нужно попробовать нащупать эту "точку кипения".
Но учитывая, что на позиции влияют ещё и внешние факторы, да и IDF меняется, да и действия конкурентов.... придётся работать вслепую. Чисто на профессиональное чутьё. :)
Ну судя по отзывам в топике многие и 30-ми местами довольны )
Могу предположить, что ранее функция TF*IDF (при фиксированном IDF и вариации TF) имела график гиперболического типа. Нынче, стало смахивать на перевёрнутую параболу (y=-x^2).
Грубо, но похоже на это )
Писать подробнее лень. Кому надо, тот поймёт о чём я. :)
Что же это за текст такой где можно тупо выкинуть все ключевики без потери смысловой нагрузки? 😂
devzev добавил 27.01.2010 в 15:50
100 раз уже говорили, что это тут вообще не при чём.
Склоняюсь больше к тому, что рыть нужно вот эту сторону. Тут тоже тяжело пока сказать точно.
Но то, что это не константа - очевидно.
По ходу, "оно" обновляется при каждой новой индексации. Пока точно сказать тяжело конечно (мало апов прошло), но все предпосылки к этому есть. Думаю, ещё 5-6 апов и всё ясно. :)
А кто там попал 20-го под "фильтр" не в курсе?
devzev добавил 27.01.2010 в 15:41
Данные из анализа на основе выпавших сайтов. Это не константа.
Уже есть более точные данные: минус - не есть константа ;)