Введите формулу для запроса по самому частому слову - Общие вопросы оптимизации

Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще · 2020-07-28T15:09:55.0000000Z

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса. А именно: 1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.). 2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента. Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",... при этом должны были упасть (по отношению с документами, где такие союзы были редки). Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста). Прошу ссылки на страницы не ставить. Самые частые слова на этих страницах: 1. (id=352): "и", "в" по 33 раза 2. (id=74): "и" 14 раз 3. (id=73): "и" 15 раз По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц. Итак: 33/14=2,3571428571 33/15=2,2000000000 14/15=0,9333333333 Экспериментально получено (см. файл в аттаче): (0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738 (0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986 (0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261 Описание файлика смотрите в посте: /ru/forum/92934 Здесь числа: 0,04487939565793 0,02923169821929 0,03025768238981 экспериментально измеренные высоты ступенек Миныча (см файл) Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона. Практические выводы для реальной работы: Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше. Пример. Если на странице А сто "и" и это самое часто словоо на странице, а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16. Данные проверены еще раз сегодня ночью.

228

nickspring

8 декабря 2006, 07:50

#201

Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.

5

Analitik2000

8 декабря 2006, 08:14

#202

nickspring:
Analitik2000, нет, я только привел то, что нашел на форуме. А в вашей меня смущает /7 - откуда взялось и что значит?

______________________________

А-а-а.. точно. Вроде ХРНС так писал, тока в другой теме... или я что-то неправильно понял... В принципе, смысла от этой семерки никакого в плане того, что на результат она не влияет, просто видимо из-за того, что количество самого часто встречающегося слова (КСЧВС), по мнению ХРНС, берется не ниже 7, видимо делить на 7 надо для нормировки к единице.

А вообще, в эксельке набросал - по диаграмме все понятно. И корень и начало КСЧВС с семерки - для нормировки.

Вот...

zip 2973.zip

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

57

ХренРедькиНеСлаще

8 декабря 2006, 08:26

#203

Итак. продолжим.

Выкладываю еще несколько опытов (см файл внизу, а в нем начните с самого низа читать).

Выводы.

Еще раз убеждаемся, что стопслова учитываются в тошноте.

Так как число стоп слов ( в нашем примере ниже это предлог "в" 67 и 232 раза соответственно) не подгонялось специально, а страницы для эксперимента взяты почти с потолка, то цифры совпадений впечатляют.

2. Другие опыты на наших тестовых страницах показывают, что страницы с числом ключевика самого частого (НО НЕ ПРЕДЛОГА!!!) 40, 30 и 20, практически идентичны при запросе по этому ключевику.

Миныч предложил проверить такую штуку:

Яндекс анализирует самое частое слово и если это не стопслово, то очень критически к этому относится, вплоть до введения другой формулы для запроса по самому частому слову. Для стопслов и запроса по стопслову, мы проверили, модификации нет.

Для "другой" формулы ее вид получен, но пока повременим выкладывать.

Еще более интересный вопрос по двусловным запросам. Миныч считает, что Яндекс может слова из двусловных запросов таким же макаром сравнивать с числом стоп слов и если они выбиваются из "естественной" статистики !естественного" текста, также вводить "альтернативную формулу" для двусловных запросов, тем самым ударяя по дорвеям и прочим любителям спама :)

Скоро займемся проверкой таких штук. Прошу двусловные запросы обсасывать в другой теме!!! :

/ru/forum/98225

Приведу некоторые слова из текста файлика:

Грубые измерения ступенек Миныча смотрим со строки 380, более точные следуют далее

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url1 = "bourabai.georisk.kz/tyapkin/ruzichka.htm"

0,06394806852234

Величина ступеньки Миныча из данных измерений (берем одно из самых точных измерений) для урла url2 = "bourabai.georisk.kz/tyapkin/biography.htm"

0,11899645481176

Самое частое слово в урле1: слово "в" 67 раз

Самое частое слово в урле2: слово "в" 232 раза

Квадрат отношения ступенек урла 2 к урлу 1 равен:

3,46268656992025

Отношение самых частых слов равно 332/67:

3,46268656716418

Сравниваем два числа красного цвета, которые получены совершенно разным способом, но как ни странно практически равны :)

Что прекрасно согласуется с теорией Миныча.

Из этих же экспериментов следует аддитивность и линейность по вкладу в релевантность членов вида (если отбросить "округление" из-за ступенек):

Релевентность=КОНСТ*(число ключей)*sqrt(ln(вес ключа)/sqrt(частота самого частого слова)

Однако, другие эксперименты показывают, что Яндекс модифицирует данную формулу, если сочтет страницу спамной :)

🚬

zip 2974.zip

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

228

nickspring

8 декабря 2006, 08:30

#204

Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

228

nickspring

8 декабря 2006, 08:34

#205

ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.

5

Analitik2000

8 декабря 2006, 08:55

#206

nickspring:
Analitik2000, опишите поточнее Ваш эксперимент. Помоему мало кто понял что Вы фиксировали, что меняли в контенте.

_______________________________________

Вкладываю еще одну эксельку - там с комментами, все понятно.

Корреляция = 0.94 это из-за того, что значения весов у многих сайтов одинаковы. По Спирмену чуть меньше - 71%, но тенденция видна.

Отсюда я сделал вывод о некоем штрафе за большое КСЧВС -количество самого часто встречаемого слова. (Ну и еще по некоторым наблюдениям)

По поводу сайтов - идентичные во всем (один генератор текста :)

_______________________________________

Мож быть это и из-за количества ключевых слов... Они же и самые часто встречаемые слова

zip 2975.zip

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

228

nickspring

8 декабря 2006, 08:57

#207

Analitik2000, где экселька? :)

57

ХренРедькиНеСлаще

8 декабря 2006, 08:58

#208

nickspring:
ХренРедькиНеСлаще, т.е Nкл/sqrt(Nтош) все же работает, но только до определенных пороговых (спамовых) значений? Тогда Ваш вопрос про 40 и 50 некорректен, правильное значение - некая золотая середина.

А кто бы знал. что вопрос некорректен, если бы я сам не сказал? :)

Точнее так скажем, оказывается, что 40 или 50 для естественных, сделанных для людей сайтов, однозначно в сторону 50.

А вот для сделанных не для людей :) Там что 40, что 50 практически все равно :)

5

Analitik2000

8 декабря 2006, 08:59

#209

nickspring:
Analitik2000, как я понял. Вы берете определенный текст. В нем ключевик всегда повторяется один раз. Затем Вы меняете число самого частого слова от 1 (кстати, неверно в формуле, там она всегда не меньше 7, об этом шла речь вроде бы, а не о делении) до 30. В итоге получается что с ростом "тошноты" при прочих равных релевантность контента падает, о чем ХРНС, собственно, и писал уже. Вы это на практике проверяли или просто график по формуле построили ? :)

________________________________

В первой эксельке - просто по формуле, чтобы наглядно увидень нормализацию, во второй - уже проверка на практике.

228

nickspring

8 декабря 2006, 09:01

#210

ХренРедькиНеСлаще:
А вот для сделанных не для людей Там что 40, что 50 практически все равно

Не корень ли убирается из знаменателя для таких сайтов? ;) А то какой-то удачный симбиоз этой темы с Вашей темой про "Я знаю чем Яндекс ударил по дорам".

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Экспериментальные данные о "новом" алгоритме Яндекса