Понял, для вас "тошнота" - мера спамности, но Вы бы не расчитывали ее так же, как это делает Яндекс (практически выявлено ХРНС).
Как же все таки определял "тошноту" Миныч?
Я Вас так и понял :)
И в связи с этим спросил "Неужели Вы подпишетесь под тем, что...."?
Кстати, у Вас нет ссылочки на то как сам Миныч определяет формулу для "Тошноты"?
(к сожалению на форуме я этого не нашел)
Я же условно!!!
Т.е. если у тебя частота вхождения "оптимизация сайтов" в контенте 10%, то будет плохо, если все 100% внешних ссылок в анкоре содержат "оптимизация сайтов"?
Может я Вас не очень понимаю?
Если верить опытам ХРНС и "тошнота" = max(7, sqrt(максимальное число вхождения слов документа)).
И считать, что "тошнота" - мера спамности документа.
Неужели Вы подпишетесь под тем, что если слово "компьютер", входит 50 раз в документ "А" из 1 000 000 знаков, а в документ "Б" из 1 000 знаков слово "кирпич" входит 40 раз (в обоих случаях слова чаще всего повторяющиеся в документах), то документ "А" более спамен чем документ "Б" ?
Но разве при этом "тошнота" - это мера спамности документа?
ИМХО нельзя меру спамности считать в отрыве от объема документа.
Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.
А мерой спамности документа скорее можно считать
"тематический объем текста" / "общий объем текста".
Практических экспериментов у меня в этом направлении нет, но если это так, то как-то это грустно...
Хотя, если при определении плотности/контрастности слов используются только релевантные пассажи, то это хорошо уравнивает шансы большого документа с маленьким.
Я имел ввиду, что если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа :)
Мне тоже влепили :)
Про нервы поддерживаю, нервных вывести из зала!, тьфу - форума! 😂