Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
58078

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса.

А именно:

1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.).

2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента.

Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",...

при этом должны были упасть (по отношению с документами, где такие союзы были редки).

Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста).

Прошу ссылки на страницы не ставить.

Самые частые слова на этих страницах:

1. (id=352): "и", "в" по 33 раза

2. (id=74): "и" 14 раз

3. (id=73): "и" 15 раз

По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц.

Итак:

33/14=2,3571428571

33/15=2,2000000000

14/15=0,9333333333

Экспериментально получено (см. файл в аттаче):

(0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738

(0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986

(0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261

Описание файлика смотрите в посте:

/ru/forum/92934

Здесь числа:

0,04487939565793

0,02923169821929

0,03025768238981

экспериментально измеренные высоты ступенек Миныча (см файл)

Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона.

Практические выводы для реальной работы:

Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.

Пример.

Если на странице А сто "и" и это самое часто словоо на странице,

а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.

Данные проверены еще раз сегодня ночью.

zip 2910.zip
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
M
На сайте с 26.07.2005
Offline
108
#1

да зачотное исследование!

Изучаем правила форума ()
iq2003
На сайте с 31.03.2005
Offline
200
#2

ХренРедькиНеСлаще, гений!:)

Megavolt
На сайте с 23.12.2005
Offline
179
#3

маладец, как раз вовремя, как раз сел писать тексту для морды :)

зачот!

Иногда лучше жевать.... (С)
Anryk
На сайте с 11.04.2003
Offline
165
#4
ХренРедькиНеСлаще:
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.

Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом:) ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".:)

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Не время для смеха!
Р
На сайте с 23.05.2006
Offline
258
#5
ХренРедькиНеСлаще:
Практические выводы для реальной работы:
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.
Пример.
Если на странице А сто "и" и это самое часто словоо на странице,
а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.
Данные проверены еще раз сегодня ночью.

Вот в таком ключе гораздо большее количество людей поймут, что Вы пишете.

[Удален]
#6

ХРНС, за исследование - респект :) Но здравой логике оно действительно противоречит. Противоречит хотя бы потому, что учет стоп-слов резко увеличивает вычислительную нагрузку. И по сути не несет в себе никакой логики, т.к. стоп-слова не несут смысловой нагрузки.

У меня есть свои соображения по природе этих изменений, но пока еще размышляю...

IndexSa
На сайте с 23.12.2005
Offline
209
#7

Рассмотрел конкурентов и под таким углом. Неа, есть и больше чем у меня и меньше. Кто нибуть ещё смотрел? :)

мозг находится в мире, а мир находится в мозгу
MiRaj
На сайте с 03.07.2006
Offline
509
#8
aka352:
учет стоп-слов резко увеличивает вычислительную нагрузку

разве? чем же?

ХренРедькиНеСлаще, спалили тему.

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)
[Удален]
#9
MiRaj:
разве? чем же?

тем, что их нужно обсчитывать. До этого они просто фильтровались

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#10
Anryk:
Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Никакой тени на Яндекс это не бросает. И никаких "для людей" роботов у них нет. Есть обычный ручной бан и навечно. Это тоже немало.

Корректность эксперимента, засучите ручки и проверьте каждую строчку и каждый запрос, все выложено, что делалось.

Ваши "учет объема текста", "весовых коэффициентов расположения предлогов относительно начала страницы" и другие "перлы" есть не что иное как заблуждения, давно выявленные экспериментально как не соответствующие нынешнему состоянию дел. Миныча надо почаще читать, самому эксперименты ставить, а не верить слухам и домыслам.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий