Экспериментальные данные о "новом" алгоритме Яндекса

57

ХренРедькиНеСлаще

2 декабря 2006, 09:15

59141

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса.

А именно:

1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.).

2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента.

Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",...

при этом должны были упасть (по отношению с документами, где такие союзы были редки).

Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста).

Прошу ссылки на страницы не ставить.

Самые частые слова на этих страницах:

1. (id=352): "и", "в" по 33 раза

2. (id=74): "и" 14 раз

3. (id=73): "и" 15 раз

По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц.

Итак:

33/14=2,3571428571

33/15=2,2000000000

14/15=0,9333333333

Экспериментально получено (см. файл в аттаче):

(0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738

(0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986

(0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261

Описание файлика смотрите в посте:

/ru/forum/92934

Здесь числа:

0,04487939565793

0,02923169821929

0,03025768238981

экспериментально измеренные высоты ступенек Миныча (см файл)

Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона.

Практические выводы для реальной работы:

Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.

Пример.

Если на странице А сто "и" и это самое часто словоо на странице,

а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.

Данные проверены еще раз сегодня ночью.

zip 2910.zip

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

M

108

Menvil

2 декабря 2006, 09:19

#1

да зачотное исследование!

Изучаем правила форума ()

230

iq2003

2 декабря 2006, 09:26

#2

ХренРедькиНеСлаще, гений!:)

179

Megavolt

2 декабря 2006, 10:04

#3

маладец, как раз вовремя, как раз сел писать тексту для морды :)

зачот!

Иногда лучше жевать.... (С)

165

Anryk

2 декабря 2006, 10:11

#4

ХренРедькиНеСлаще:
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.

Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом:) ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".:)

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Не время для смеха!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Р

258

Разработчик

2 декабря 2006, 10:11

#5

ХренРедькиНеСлаще:
Практические выводы для реальной работы:
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.
Пример.
Если на странице А сто "и" и это самое часто словоо на странице,
а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.
Данные проверены еще раз сегодня ночью.

Вот в таком ключе гораздо большее количество людей поймут, что Вы пишете.

[Удален]

2 декабря 2006, 10:27

#6

ХРНС, за исследование - респект :) Но здравой логике оно действительно противоречит. Противоречит хотя бы потому, что учет стоп-слов резко увеличивает вычислительную нагрузку. И по сути не несет в себе никакой логики, т.к. стоп-слова не несут смысловой нагрузки.

У меня есть свои соображения по природе этих изменений, но пока еще размышляю...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

205

IndexSa

2 декабря 2006, 10:39

#7

Рассмотрел конкурентов и под таким углом. Неа, есть и больше чем у меня и меньше. Кто нибуть ещё смотрел? :)

мозг находится в мире, а мир находится в мозгу

509

MiRaj

2 декабря 2006, 10:40

#8

aka352:
учет стоп-слов резко увеличивает вычислительную нагрузку

разве? чем же?

ХренРедькиНеСлаще, спалили тему.

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)

[Удален]

2 декабря 2006, 10:43

#9

MiRaj:
разве? чем же?

тем, что их нужно обсчитывать. До этого они просто фильтровались

57

ХренРедькиНеСлаще

2 декабря 2006, 10:44

#10

Anryk:
Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Никакой тени на Яндекс это не бросает. И никаких "для людей" роботов у них нет. Есть обычный ручной бан и навечно. Это тоже немало.

Корректность эксперимента, засучите ручки и проверьте каждую строчку и каждый запрос, все выложено, что делалось.

Ваши "учет объема текста", "весовых коэффициентов расположения предлогов относительно начала страницы" и другие "перлы" есть не что иное как заблуждения, давно выявленные экспериментально как не соответствующие нынешнему состоянию дел. Миныча надо почаще читать, самому эксперименты ставить, а не верить слухам и домыслам.

Эксперимент: Чем лучше выделять Яндекс: Расширенный сниппет может Упал трафик в Яндекс

Дзен реализовал для авторов возможность вывода денег через СПБ

Маркетинг для шоколадной фабрики. На 34% выше средний чек