Спрашивайте у Яндекса, почему Земля вокруг Солнца вертится? - Общие вопросы оптимизации

Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще · 2020-07-28T15:09:55.0000000Z

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса. А именно: 1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.). 2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента. Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",... при этом должны были упасть (по отношению с документами, где такие союзы были редки). Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста). Прошу ссылки на страницы не ставить. Самые частые слова на этих страницах: 1. (id=352): "и", "в" по 33 раза 2. (id=74): "и" 14 раз 3. (id=73): "и" 15 раз По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц. Итак: 33/14=2,3571428571 33/15=2,2000000000 14/15=0,9333333333 Экспериментально получено (см. файл в аттаче): (0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738 (0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986 (0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261 Описание файлика смотрите в посте: /ru/forum/92934 Здесь числа: 0,04487939565793 0,02923169821929 0,03025768238981 экспериментально измеренные высоты ступенек Миныча (см файл) Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона. Практические выводы для реальной работы: Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше. Пример. Если на странице А сто "и" и это самое часто словоо на странице, а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16. Данные проверены еще раз сегодня ночью.

1183

wolf

4 декабря 2006, 12:39

#131

ХренРедькиНеСлаще:
Проигнорировал потому, что взял альтернативную формулировку методики Миныча (через величины ступенек). При этом ВИЦ не важен. Это фактически потому , что мы знаем связь в некоторых случаях между величиной ступени, тошнотой и величиной самого частотного слова.

Тогда для полной ясности (Вы ведь этого добиваетесь, не так ли?) неплохо было бы установить физический смысл "величины ступенек", в частности, почему ВИЦ тут не влияет, и заодно прогнать пример по прямой методике. ;)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

57

ХренРедькиНеСлаще

4 декабря 2006, 12:54

#132

wolf:
Тогда для полной ясности (Вы ведь этого добиваетесь, не так ли?) неплохо было бы установить физический смысл "величины ступенек", в частности, почему ВИЦ тут не влияет, и заодно прогнать пример по прямой методике.

Физический смысл надо спрашивать у Яндекса. Мы ведь не спрашиваем, почему Земля вокруг Солнца вертится, хотя с точки зрения Эйнштейна это все равно как считать, лишь бы результаты экспериментов с этим совпадали.

Так данные в файле это и есть прямая метода, просто надо эти данные иначе обсчитывать. не через ступени. Оставим это тем, кого это волнует.

Я бы не хотел слишком быстро раскрывать карты по измерению ВИЦ, поэтому воспользовался альтернативкой :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

4 декабря 2006, 13:25

#133

ХренРедькиНеСлаще:
Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента.

Таки не совсем понял, откуда следует вывод, что изменение произошло в сторону контента. Ведь ежели тошнота контентная в большинстве случаев увеличилась, то вес контента по отношению к запросам, а стало быть, и контентный вклад в релеватность, должен понизиться. Ведь его зависимость от тошноты, сиречь частотности самого частотного термина - обратная, а не прямая.

57

ХренРедькиНеСлаще

4 декабря 2006, 14:16

#134

wolf:
Таки не совсем понял, откуда следует вывод, что изменение произошло в сторону контента. Ведь ежели тошнота контентная в большинстве случаев увеличилась, то вес контента по отношению к запросам, а стало быть, и контентный вклад в релеватность, должен понизиться. Ведь его зависимость от тошноты, сиречь частотности самого частотного термина - обратная, а не прямая.

Правильно. Но ведь Яндекс не идиот ломать сразу и всерьез асессорную работу, раз тошнота возросла процентов на 20 в среднем. то это надо учесть процентов на 20 увеличением коэффициента в контенте. Чтобы в среднем было все окей, а у оптимизаторов геморрой. :)

257

AiK

4 декабря 2006, 14:32

#135

ХренРедькиНеСлаще:
Почему опять?

Потому что рыбнадзор. Сначала пишем, что

ХренРедькиНеСлаще:
Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона.

А потом выясняется:

ХренРедькиНеСлаще:
Скрипт мной написан давно для подсчета слов, он не идеален, более того иногда считает текст в тегах, что Яндексом не индексируется.

Т.е. либо придётся считать точно, либо забыть про совпадения до 7-го знака.

Я вот не поленился, посчитал две страницы, по которым делаются далекоидущие выводы. Нам почему-то предъявлено, что самое частотное слово - предлог "и" встречается ровно 14 раз (id=74). А я насчитал своей программулиной 33 раза и ручками перепроверил - опять 33 получилось. Самое интересное, что если проигнорировать предлоги, то самое часто встречающееся слово для первого документа имеет 23 повтора, а для второго -27. И как не дели одно на другое, "эксперементальные" данные не подтверждаются. По-моему это называется подтасовкой.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

85

saman

4 декабря 2006, 14:34

#136

ХренРедькиНеСлаще:
Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",...
при этом должны были упасть (по отношению с документами, где такие союзы были редки).

Мда, жестоко... имхо, литература и математика - несовместимые вещи!

С уважением, Хорев Андрей (http://www.khorev.net/)

228

nickspring

4 декабря 2006, 15:45

#137

AiK:
встречается ровно 14 раз (id=74). А я насчитал своей программулиной 33 раза и ручками перепроверил - опять 33 получилось

не знаю о чем Вы, у меня там ровно 14 союзов "и".

257

AiK

4 декабря 2006, 16:22

#138

nickspring:
не знаю о чем Вы, у меня там ровно 14 союзов "и".

Э... в документ 2003-го года залез. Каюсь, был невнимателен. Посыпаю голову пеплом, приношу извинения и проч. проч. Однако и в документе 2004-года союз и встречается 12 раз и ещё 3 раза буква И встречается в инициалах. Т.е. опять 14-ть у меня не выходит. Вроде бы на этот раз не ошибся, т.к. документ про SCILAB... Т.е. лично мне легче не стало...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

57

ХренРедькиНеСлаще

4 декабря 2006, 16:33

#139

AiK:
Э... в документ 2003-го года залез. Каюсь, был невнимателен. Посыпаю голову пеплом, приношу извинения и проч. проч. Однако и в документе 2004-года союз и встречается 12 раз и ещё 3 раза буква И встречается в инициалах. Т.е. опять 14-ть у меня не выходит. Вроде бы на этот раз не ошибся, т.к. документ про SCILAB... Т.е. лично мне легче не стало...

AiK, тут придется дважды посыпать :)

Мне тут файлик пришлось поправить по замечанию Саге, так что 73 меняйте на 74 и наоборот

/ru/forum/comment/1691626

у 73 дока букв "И" 14 штук

у 74 дока букв "и" 15 штук

:)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Как построить и поддерживать

228

nickspring

4 декабря 2006, 16:43

#140

ХренРедькиНеСлаще, а насколько верно считать инициалы с точкой союзом "и"? Я на http://vface.controlstyle.ru/ns.php не учитываю такие буквы. У меня там на 74-м документе ровно 12 штук "и" без инициалов.

Курс биткоина превысил $50 тысяч

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Экспериментальные данные о "новом" алгоритме Яндекса