john2007

john2007
Рейтинг
173
Регистрация
26.03.2007
pro-maker:
А зачем подписываться под чужой методой? Для практики достаточно знания взаимосвязей.

Понял, для вас "тошнота" - мера спамности, но Вы бы не расчитывали ее так же, как это делает Яндекс (практически выявлено ХРНС).

Как же все таки определял "тошноту" Миныч?

pro-maker:
john2007, для меня "спамность" и "тошнота" просто синонимы.

Я Вас так и понял :)

И в связи с этим спросил "Неужели Вы подпишетесь под тем, что...."?

Кстати, у Вас нет ссылочки на то как сам Миныч определяет формулу для "Тошноты"?

(к сожалению на форуме я этого не нашел)

Miha Kuzmin (KMY):
john2007, знаки тут вообще при чем ? Оперировать можно тремя понятиями:

1. Пассаж;
2. Количество слов в пассаже;
3. Количество слов в документе.

А знаки - это бред сивой кобылы.

Я же условно!!!

Miha Kuzmin (KMY):
pro-maker, ну в основном это проявляется на двухсловных высококонкуретных запросах. То есть, условно, при фиксированном вхождении запроса в анкоры, нельзя превышать некоторую его частоту в контенте.

Т.е. если у тебя частота вхождения "оптимизация сайтов" в контенте 10%, то будет плохо, если все 100% внешних ссылок в анкоре содержат "оптимизация сайтов"?

pro-maker:
Именно потому и "тошнота", что "меру" можно считать по-разному, т.е. "тошнота" является элементом отражающим спамность документа в модели релевантности, которую (спамность) можно считать разными способами получая при этом разные результаты поиска. Как я понимаю, спамность считается для разных коллекций по-разному, например, для нормативных документов и вэбовских страниц это разные формулы.

Может я Вас не очень понимаю?

Если верить опытам ХРНС и "тошнота" = max(7, sqrt(максимальное число вхождения слов документа)).

И считать, что "тошнота" - мера спамности документа.

Неужели Вы подпишетесь под тем, что если слово "компьютер", входит 50 раз в документ "А" из 1 000 000 знаков, а в документ "Б" из 1 000 знаков слово "кирпич" входит 40 раз (в обоих случаях слова чаще всего повторяющиеся в документах), то документ "А" более спамен чем документ "Б" ?

pro-maker:
Миныч называет тошнотой, в Яндексе, вроде, используют термин нормировки. Используемая мера спамности является элементом мат. модели релевантности, нормировать могут по самому частому слову, по общему количеству или еще как, и это, скорее всего, зависит от качества получаемых результатов поиска.

Но разве при этом "тошнота" - это мера спамности документа?

ИМХО нельзя меру спамности считать в отрыве от объема документа.

Скорее я бы назвал это "тематическим объемом текста" или что-то вроде того.

А мерой спамности документа скорее можно считать

"тематический объем текста" / "общий объем текста".

Разработчик:
john2007, вряд ли, иначе так и получится:

Практических экспериментов у меня в этом направлении нет, но если это так, то как-то это грустно...

Хотя, если при определении плотности/контрастности слов используются только релевантные пассажи, то это хорошо уравнивает шансы большого документа с маленьким.

The WishMaster:

Не, ну речь все же про ключевики, а не про просто слова.

Я имел ввиду, что если предположить, что "тошнота" - это мера спамности документа при нормировании ключевиков по "тошноте" (самому часто встречающемуся слову), то с таким же успехом при нормировании ключевиков по общему количеству слов в документе, общее количество слов - это тоже мера спамности документа :)

you_too:
Свет клином на пузомерке сошелся. И по злорадству, видимо, мне жирный минус "кто то" влепил и не подписался.
Лечите нервы. Мне репутация до лампочки :)

Мне тоже влепили :)

Про нервы поддерживаю, нервных вывести из зала!, тьфу - форума! 😂

Всего: 2535