Попробуйте воспроизвести ваш эксперимент, но без цифр и массово - Общие вопросы оптимизации

Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще · 2020-07-28T15:09:55.0000000Z

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса. А именно: 1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.). 2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента. Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",... при этом должны были упасть (по отношению с документами, где такие союзы были редки). Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста). Прошу ссылки на страницы не ставить. Самые частые слова на этих страницах: 1. (id=352): "и", "в" по 33 раза 2. (id=74): "и" 14 раз 3. (id=73): "и" 15 раз По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц. Итак: 33/14=2,3571428571 33/15=2,2000000000 14/15=0,9333333333 Экспериментально получено (см. файл в аттаче): (0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738 (0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986 (0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261 Описание файлика смотрите в посте: /ru/forum/92934 Здесь числа: 0,04487939565793 0,02923169821929 0,03025768238981 экспериментально измеренные высоты ступенек Миныча (см файл) Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона. Практические выводы для реальной работы: Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше. Пример. Если на странице А сто "и" и это самое часто словоо на странице, а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16. Данные проверены еще раз сегодня ночью.

291

Nikolai Popkov

2 декабря 2006, 11:55

#21

Anryk:
т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу

это самая первая мысль, которая возникает при прочтении

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат

57

ХренРедькиНеСлаще

2 декабря 2006, 12:00

#22

nickspring:
ХренРедькиНеСлаще, и что, объем страницы не учитывается? т.е. получается с очень большой вероятностью, что статья на 10000 знаков про попугаев будем менее релевантна, чем новость про этих же попугаев?

Это выяснил Миныч еще года полтора назад, что играет роль не объем текста, а самое частотное слово. Но ранее стоп слова в подсчет самого частотного слова не входили.

Это к вопросу об оптимальной плотности ключевика, которой нет. Если самое частотное слово входит менее 7 раз, то используется число семь в качестве числа самого частотного.

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

Продвижение большого количества НЧ Сергей Людкевич на конференции Стоп просмотры. Из за

116

Boris Shramko

2 декабря 2006, 12:06

#23

Ночь, улица, фонарь, аптека.

Вот где релеваетность зарыта...

308827355

57

ХренРедькиНеСлаще

2 декабря 2006, 12:08

#24

Anryk:
Сейчас, получается так, Вы проводите эксперимент, пренебрегая какими-то параметрами, потому что ранее Вы уже выяснили на основе других экспериментов, что эти параметры влияют на выдачу таким-то образом, т.е. с большими допусками и в отрыве от времени,(алгоритм же меняется?) Что приводит к получению крайне интересных, но, возможно, неверных результатов и порождению новых "заблуждений", коих, тут я с Вами согласен, и так хватает.

Если Вы считаете, что три дня назад сделанные эксперименты, в том числе с использованием разных позиций слов, разных падежей, строчных и заглавных букв и т.п. это "хреновые" и "неверные" данные, то мне сказать Вам нечего. Поищите на форуме, может найдете философский камень :)

Упал доход Google: заглавные буквы в Вопросы представителю Яндекса

179

Megavolt

2 декабря 2006, 12:15

#25

данные, кстати, стопудово "хреновые" :)

Иногда лучше жевать.... (С)

57

Vit@l

2 декабря 2006, 12:22

#26

По-моему нельзя рассуждать о справедливости этой темы. Человек провел солидное исследование, хотя для меня и неожиданное, и простыми домыслами цифры не победить. Сейчас "почистил" текст на одном сайте, подожду АПа. Я пока сам не очень надеюсь на результат, но предлагаю всем спорщикам (кто хочет доказать свою точку зрения) почитсить тексты и встретиться через недельку в этом топике и огласить результаты. Так сказать проведем тот же эксперимент, но без цифр и массово.

Только одно замечание. За последний АП, а может и последние 2 (не уследил), мои морды в кэше Я не поменялись. Надо дождаться этого события.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

26

amonasro

2 декабря 2006, 12:39

#27

Уважаемый ХРНС, позвольте в очередной раз поблагодарить вас за ваши опыты. И за то, что с каждым разом описание ваших экспериментов становится все более доступным для восприятия :)

Вопрос по сути. Другими словами, как я понял, вы утверждаете, что нормировка tf (тошноты) осуществляется по самому частотному слову в документе, и что теперь Яндексом стали учитываться стоп-слова.

Таким образом, если мы имеем две практически одинаковые страницы с общим количеством 300 слов, из них 10 слов - "ключевик", но на одной странице 20 союзов "и", а на другой их 16, то вторая страница будет более релевантна по запросу "ключевик".

И отношение релевантностей будет равно sqrt ((10/16) / (10/20)) ?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

57

ХренРедькиНеСлаще

2 декабря 2006, 12:47

#28

amonasro:
Вопрос по сути. Другими словами, как я понял, вы утверждаете, что нормировка tf (тошноты) осуществляется по самому частотному слову в документе, и что теперь Яндексом стали учитываться стоп-слова.

Таким образом, если мы имеем две практически одинаковые страницы с общим количеством 300 слов, из них 10 слов - "ключевик", но на одной странице 20 союзов "и", а на другой их 16, то вторая страница будет более релевантна по запросу "ключевик".

И отношение релевантностей будет равно sqrt ((10/16) / (10/20)) ?

Да, это так, если союз "и" самое частотное слово на обоих страницах и ВИЦы страниц одинаковы.

Можно еще заметить, что наиболее оптимален вариант, когда наш ключевик - самое частотное слово.

509

MiRaj

2 декабря 2006, 12:54

#29

ХренРедькиНеСлаще:
Да, это так, если союз "и" самое частотное слово на обоих страницах и ВИЦы страниц одинаковы.

ХРНС, а как же title H1 и прочая лабуда ;)

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)

A

26

amonasro

2 декабря 2006, 12:59

#30

Да, это так, если союз "и" самое частотное слово на обоих страницах и ВИЦы страниц одинаковы.

Да, это подразумевалось.

Попробовал воспроизвести ваш эксперимент. Все сходится. Точность до 9 знака впечатляет. Осталось еще раз осмыслить полученные данные, и доказать теорию практикой. :)

Правда иногда при смене весов в результатах поиска выдаются не обе страницы, а только одна из них - у вас тоже так бывает?

И что вы думаете про двухсловные запросы? Тошноты ключевиков должны быть завязаны на отношение корней ln весов слов?

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, чтобы попасть в ответы Google Bard

Экспериментальные данные о "новом" алгоритме Яндекса