- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.
Analitik2000, нет, я только привел то, что нашел на форуме. А в вашей меня смущает /7 - откуда взялось и что значит?
______________________________
А-а-а.. точно. Вроде ХРНС так писал, тока в другой теме... или я что-то неправильно понял... В принципе, смысла от этой семерки никакого в плане того, что на результат она не влияет, просто видимо из-за того, что количество самого часто встречающегося слова (КСЧВС), по мнению ХРНС, берется не ниже 7, видимо делить на 7 надо для нормировки к единице.
А вообще, в эксельке набросал - по диаграмме все понятно. И корень и начало КСЧВС с семерки - для нормировки.
Вот...
Итак. продолжим.
Выкладываю еще несколько опытов (см файл внизу, а в нем начните с самого низа читать).
Выводы.
Еще раз убеждаемся, что стопслова учитываются в тошноте.
Так как число стоп слов ( в нашем примере ниже это предлог "в" 67 и 232 раза соответственно) не подгонялось специально, а страницы для эксперимента взяты почти с потолка, то цифры совпадений впечатляют.
2. Другие опыты на наших тестовых страницах показывают, что страницы с числом ключевика самого частого (НО НЕ ПРЕДЛОГА!!!) 40, 30 и 20, практически идентичны при запросе по этому ключевику.
Миныч предложил проверить такую штуку:
Яндекс анализирует самое частое слово и если это не стопслово, то очень критически к этому относится, вплоть до введения другой формулы для запроса по самому частому слову. Для стопслов и запроса по стопслову, мы проверили, модификации нет.
Для "другой" формулы ее вид получен, но пока повременим выкладывать.
Еще более интересный вопрос по двусловным запросам. Миныч считает, что Яндекс может слова из двусловных запросов таким же макаром сравнивать с числом стоп слов и если они выбиваются из "естественной" статистики !естественного" текста, также вводить "альтернативную формулу" для двусловных запросов, тем самым ударяя по дорвеям и прочим любителям спама :)
Скоро займемся проверкой таких штук. Прошу двусловные запросы обсасывать в другой теме!!! :
/ru/forum/98225
Приведу некоторые слова из текста файлика:
Грубые измерения ступенек Миныча смотрим со строки 380, более точные следуют далее
Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url1 = "bourabai.georisk.kz/tyapkin/ruzichka.htm"
0,06394806852234
Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url2 = "bourabai.georisk.kz/tyapkin/biography.htm"
0,11899645481176
Самое частое слово в урле1: слово "в" 67 раз
Самое частое слово в урле2: слово "в" 232 раза
Квадрат отношения ступенек урла 2 к урлу 1 равен:
3,46268656992025
Отношение самых частых слов равно 332/67:
3,46268656716418
Сравниваем два числа красного цвета, которые получены совершенно разным способом, но как ни странно практически равны :)
Что прекрасно согласуется с теорией Миныча.
Из этих же экспериментов следует аддитивность и линейность по вкладу в релевантность членов вида (если отбросить "округление" из-за ступенек):
Релевентность=КОНСТ*(число ключей)*sqrt(ln(вес ключа)/sqrt(частота самого частого слова)
Однако, другие эксперименты показывают, что Яндекс модифицирует данную формулу, если сочтет страницу спамной :)
🚬
Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)
ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.
Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.
_______________________________________
Вкладываю еще одну эксельку - там с комментами, все понятно.
Корреляция = 0.94 это из-за того, что значения весов у многих сайтов одинаковы. По Спирмену чуть меньше - 71%, но тенденция видна.
Отсюда я сделал вывод о некоем штрафе за большое КСЧВС -количество самого часто встречаемого слова. (Ну и еще по некоторым наблюдениям)
По поводу сайтов - идентичные во всем (один генератор текста :)
_______________________________________
Мож быть это и из-за количества ключевых слов... Они же и самые часто встречаемые слова
Analitik2000, где экселька? :)
ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.
А кто бы знал. что вопрос некорректен, если бы я сам не сказал? :)
Точнее так скажем, оказывается, что 40 или 50 для естественных, сделанных для людей сайтов, однозначно в сторону 50.
А вот для сделанных не для людей :) Там что 40, что 50 практически все равно :)
Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)
________________________________
В первой эксельке - просто по формуле, чтобы наглядно увидень нормализацию, во второй - уже проверка на практике.
А вот для сделанных не для людей Там что 40, что 50 практически все равно
Не корень ли убирается из знаменателя для таких сайтов? ;) А то какой-то удачный симбиоз этой темы с Вашей темой про "Я знаю чем Яндекс ударил по дорам".