Попробуйте разгадать формулу релевантности контента. Используйте метод коррелирования измеренной расчетной релевантности реципиента по определенному - Общие вопросы оптимизации

Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще · 2020-07-28T15:09:55.0000000Z

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса. А именно: 1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.). 2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента. Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",... при этом должны были упасть (по отношению с документами, где такие союзы были редки). Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста). Прошу ссылки на страницы не ставить. Самые частые слова на этих страницах: 1. (id=352): "и", "в" по 33 раза 2. (id=74): "и" 14 раз 3. (id=73): "и" 15 раз По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц. Итак: 33/14=2,3571428571 33/15=2,2000000000 14/15=0,9333333333 Экспериментально получено (см. файл в аттаче): (0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738 (0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986 (0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261 Описание файлика смотрите в посте: /ru/forum/92934 Здесь числа: 0,04487939565793 0,02923169821929 0,03025768238981 экспериментально измеренные высоты ступенек Миныча (см файл) Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона. Практические выводы для реальной работы: Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше. Пример. Если на странице А сто "и" и это самое часто словоо на странице, а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16. Данные проверены еще раз сегодня ночью.

281

pro-maker

10 декабря 2006, 10:36

#241

ХренРедькиНеСлаще:
Для нас этот коэффициент - результат измерений. От ВИЦа ли он такой или еще от чего берется, мы не знаем, так как определения ВИЦА никто не давал. Вручную ли он корректируется или автоматом присваивается или от траст рэнка как-то еще зависит или от ТИЦа никакой разницы сейчас нет.

В общем, если у кого то есть явный пример, где этот коэффициент явно не связан с ВИЦем, давайте его сюда, мы попробуем раскопать что нить. Пока явных примеров сами не нашли.

Появились вопросы по модели. Хрнс, буду благодарен за разъяснения.

При расчете контентной составляющей релевантности для сложных запросов учитываются такие факторы, как ссылочный вес (вИЦ), трастовость, тематичность, лексика, устойчивые выражения (пары/тройки), ограничения контекста, пересечение анкора с текстом донора и т.п., т.е. такую формулу разгадать нереально, поскольку набор факторов сложно подогнать для расчета под реальный серп.

Правильно ли понимаю, что для сложных запросов подход заключается не в прямом расчете релевантности, а в ее сравнении с тестовой страницей (вернее, батареей тестовых страниц)?

И второй момент, показывает ли Ваша методика коррелирование измеренной/расчетной релевантности реципиента по определенному запросу с изменением (1) количества бэков с этим же запросом в анкоре, а также с (2) появлением/исчезновением донора помимо основной выдачи еще и в быстророботе (дублях)? Речь не о том, что чем больше ссылок с требуемым запросом в анкоре, тем лучше, а о том, что наблюдались ли ситуации, когда бэки и дубли появляются и отваливаются, а позиции при этом не меняются.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

228

nickspring

10 декабря 2006, 17:21

#242

А и не зачем копать, контент приобрел чуть больший вес, но, имхо, не он определил перестановки в серпе с начала ноября. Название темы, действительно, слишком громкое. Формулы приводимые в теме, работали еще до изменений в Яндексе (пусть и с незначительными изменениями = вес контента и стоп-слова).

Google Updates - апдейты На первом месте по Яндекс Нейро

509

MiRaj

10 декабря 2006, 17:56

#243

nickspring, он. Только не стоит рассматривать контент исключительно как контент ранжируемых документов ;)

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)

1183

wolf

11 декабря 2006, 10:18

#244

pro-maker:
TFnorm ~ (число_найденных_ключевиков / sqrt(max(число_вхождений_самого_частого_слова, 7))

Побуквоедствую чутка. :)

Виталий, то что Вы написали не может быть нормировкой. Суть нормировки - получить безразмерную величину, спроецированную в отрезок [0, 1].

Деля величину размерностью число слов на величину размерностью корень числа слов, мы получаем величину размерностью корень числа слов. Это не нормировка! Если нормировка в модели существует (а она по логике должна существовать), то где-то еще должна прятаться переменная размерностью число слов в степени -1/2.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

11 декабря 2006, 10:18

#245

ХренРедькиНеСлаще:
Для нас этот коэффициент - результат измерений. От ВИЦа ли он такой или еще от чего берется, мы не знаем, так как определения ВИЦА никто не давал. Вручную ли он корректируется или автоматом присваивается или от траст рэнка как-то еще зависит или от ТИЦа никакой разницы сейчас нет.

То есть получается, что в Ваше понятие вИЦ Вы просто запихнули все переменные и константы, которые Вам не удалось выделить в явном виде в Вашей модели? ;) И Вы даже не знаете, что там еще сидит, кроме собственно чистого вИЦ. И после этого Вы гордо заявляете, что можете определить чистый вИЦ? :)

Итого, более строго, имеем:

Р = f(вИЦ, ...) * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(max(число_вхождений_самого_частого_слова, 7))

Характер функции f - неизвестен. От каких аргументов, кроме вИЦ, эта функция зависит - тоже неизвестно. Черный ящик не открывается. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

117

aza

11 декабря 2006, 10:55

#246

ХренРедькиНеСлаще:
А здесь полной оптимизации не получится, в лучшем случае, что удастся сделать это продвигать ТРОЙНУЮ фразу картибус-педеркис машина, но даже в этом случае картибус будет раза в два менее релевантен, так как отстоит от слова машина на одно слово дальше.

Кстати всплывает давно мучавший меня вопрос -

если построить такую фразу "катрибус машина, ледеркис", то слова машина и ледеркис распознаются как прямая фраза "машина ледеркис" или считаются отстоящими друг от друга, поскольку разделены запятой?

На практике с реальными сайтами мне неудалось однозначно это подтвердить или опровергнуть для себя.

Выстраиваю системы и структуры, складываю маркетинговые паззлы. Провожу челлендж #МаркетингБезБюджета и учу делать свои продажи онлайн без затрат.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

281

pro-maker

11 декабря 2006, 10:58

#247

wolf:
Если нормировка в модели существует (а она по логике должна существовать), то где-то еще должна прятаться переменная размерностью число слов в степени -1/2.

Логично, надо поискать потерянную половинку. :)

wolf:
Характер функции f - неизвестен. От каких аргументов, кроме вИЦ, эта функция зависит - тоже неизвестно. Черный ящик не открывается.

Для невнимательных повторю два радикальных вопроса к Хрнс.

pro-maker:
... для сложных запросов подход заключается не в прямом расчете релевантности, а в ее сравнении с тестовой страницей (вернее, батареей тестовых страниц)?

И второй момент, показывает ли Ваша методика коррелирование измеренной/расчетной релевантности реципиента по определенному запросу с изменением (1) количества бэков с этим же запросом в анкоре, а также с (2) появлением/исчезновением донора помимо основной выдачи еще и в быстророботе (дублях)? Речь не о том, что чем больше ссылок с требуемым запросом в анкоре, тем лучше, а о том, что наблюдались ли ситуации, когда бэки и дубли появляются и отваливаются, а позиции при этом не меняются.

Т.е. предполагаю, что на самом деле производятся замеры по разным запросам относительно анализируемых и тестовых страниц, а обсуждаемые формулы, к которым Вы, Сергей, придираетесь, опытные данные подкрепляют только концептуально. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

281

pro-maker

11 декабря 2006, 11:03

#248

aza:
если построить такую фразу "катрибус машина, ледеркис", то слова машина и ледеркис распознаются как прямая фраза "машина ледеркис" или считаются отстоящими друг от друга, поскольку разделены запятой?

Поэксперементируйте с переколдовкой, разные падежи, меняйте слова местами, вставляйте предлоги между словами и другие слова (прилагательные, глаголы, т.е. разные части речи) и смотрите какие растояния будет выдавать переколдовка. Для устойчивой фразы растояния должны быть в пределах предложения.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

11 декабря 2006, 11:07

#249

Виталий, про ссылочное ранжирование нам вообще-то пока ничего не рассказали. Только завтраками кормят. :)

Да и нам для начала разобраться хотя бы с простейшим случаем однословного запроса без анкорной составляющей. Кое какие параметры удалось вычленить - за это ХРНС респект. Но явно не все. А то я сплошь и рядом натыкаюсь на примеры, когда при равных значениях вычлененных параметров страница с нулем бэков оказывается сильно релевантней страницы с кучей бэков. Что наталкивает меня на мысль, что кроме вИЦ'а сидит еще что-то нехорошее в невычлененной области. ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

57

ХренРедькиНеСлаще

11 декабря 2006, 18:06

#250

wolf:
То есть получается, что в Ваше понятие вИЦ Вы просто запихнули все переменные и константы, которые Вам не удалось выделить в явном виде в Вашей модели? И Вы даже не знаете, что там еще сидит, кроме собственно чистого вИЦ. И после этого Вы гордо заявляете, что можете определить чистый вИЦ?

wolf, Вы как с Луны свалились. Для нас ВИЦа как такового вообще не существует, так как ОПРЕДЕЛЕНИЯ ВИЦа никто(!!!) не дает, даже уважаемый Яндекс.

Ну изобретите новый термин, ХРЫЦ, ТЕКАРТЫЧ,... помашите как шаман ручками, думаете дым рассеется?

Что Вы имеете против ОПРЕДЕЛЕНИЯ ВИЦ, как коэффициента пропорциональности при модельной формуле релевантности контента?

Если что то не нравится: дайте свое определение :)

А при...ся к столбу и мы умеем.

Естественно, что коэффициент пропорциональности зависит от числа ссылок (измерено!), что он зависит от "качества" ссылок (как раз того коэффициента пропорциональности ХРЫЧ-ВИЦ в формуле для страницы донора), а вот от чего он еще зависит (чтобы это было явно доказано, а не одной бабы новости) пока неизвестно.

Хотите получить развернутый ответ, либо опровергнуть теорию: дайте контрпример. А то можно считать все Ваши сомнения вилами по воде писаными.

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Экспериментальные данные о "новом" алгоритме Яндекса