Экспериментальные данные о "новом" алгоритме Яндекса - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 02.12.2006, 12:15   #1
Lovelace
 
Аватар для ХренРедькиНеСлаще
 
Регистрация: 27.07.2006
Адрес: Шалаш
Сообщений: 957
Репутация: 7975

По умолчанию Экспериментальные данные о "новом" алгоритме Яндекса

Решили обнародовать экспериментально обнаруженные новые изменения в алгоритме ранжирования Янндекса.

А именно:

1. При подсчете тошноты контента (сейчас это фактически корень квадратный из числа вхождений самого частого слова в документе) Яндекс стал учитывать все стоп слова (предлоги, междометия и т.п.).

2. Ввиду такого значительного изменения в тошноте (ее увеличения в большинстве случаев) Яндекс изменил коэффициенты пропорциональности между ссылочным фактором и фактором контента в сторону контента.

Те страницы, где очень часто встречались предлоги и союзы типа "и", "в", "с" "для",...
при этом должны были упасть (по отношению с документами, где такие союзы были редки).

Иллюстрацию даем на трех страницах (их урлы в файлике Эксель в конце поста).
Прошу ссылки на страницы не ставить.

Самые частые слова на этих страницах:
1. (id=352): "и", "в" по 33 раза
2. (id=74): "и" 14 раз
3. (id=73): "и" 15 раз

По методике Миныча, отношение высот ступенек Миныча для этих страниц, возведенное в квадрат, должно давать результат деления самых частых слов для этих страниц.
Итак:
33/14=2,3571428571
33/15=2,2000000000
14/15=0,9333333333
Экспериментально получено (см. файл в аттаче):
(0,04487939565793/0,02923169821929)*(0,04487939565793/0,02923169821929)=2,3571428738
(0,04487939565793/0,03025768238981)*(0,04487939565793/0,03025768238981)=2,1999999986
(0,02923169821929/0,03025768238981)*(0,02923169821929/0,03025768238981)=0,9333333261

Описание файлика смотрите в посте:
http://searchengines.guru/showpost.p...49&postcount=1

Здесь числа:
0,04487939565793
0,02923169821929
0,03025768238981
экспериментально измеренные высоты ступенек Миныча (см файл)

Совпадение до 7-9 знака после запятой теоретических результатов с измеренными может убедить даже слона.

Практические выводы для реальной работы:

Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.

Пример.

Если на странице А сто "и" и это самое часто словоо на странице,
а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.

Данные проверены еще раз сегодня ночью.
Вложения
Тип файла: zip Ссылочное ранжирование7.zip (31.5 Кб, 827 просмотров)
__________________
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
ХренРедькиНеСлаще вне форума   Ответить с цитированием

Реклама
Старый 02.12.2006, 12:19   #2
Menvil
Второй после Бога
 
Регистрация: 26.07.2005
Адрес: /dev/null
Сообщений: 237
Репутация: 1311
Отправить сообщение для Menvil с помощью ICQ Отправить сообщение для Menvil с помощью Skype™

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

да зачотное исследование!
Menvil вне форума   Ответить с цитированием
Старый 02.12.2006, 12:26   #3
iq2003
Академик
 
Аватар для iq2003
 
Регистрация: 31.03.2005
Адрес: Москва
Сообщений: 1,472
Репутация: 148654

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

ХренРедькиНеСлаще, гений!
iq2003 вне форума   Ответить с цитированием
Старый 02.12.2006, 13:04   #4
Megavolt
Освободитель лампочек
 
Аватар для Megavolt
 
Регистрация: 23.12.2005
Сообщений: 2,443
Репутация: 47849

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

маладец, как раз вовремя, как раз сел писать тексту для морды
зачот!
__________________
Иногда лучше жевать.... (С)
Megavolt вне форума   Ответить с цитированием
Старый 02.12.2006, 13:11   #5
Anryk
Профессор
 
Аватар для Anryk
 
Регистрация: 11.04.2003
Адрес: Петербург
Сообщений: 740
Репутация: 39044
Отправить сообщение для Anryk с помощью ICQ

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

Цитата:
Сообщение от ХренРедькиНеСлаще
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.
Не вдаваясь в математику (ибо, кто я такой, чтобы тягаться с ХРHС в этом ), хочу, однако, заметить, что если этот результат верен, то наибольшей релевантностью будет обладать страница с простым перечислением ключевиков. Или, в лучшем случае, с неестественным текстом типа: "Рассвело. Подуло. Включил кондиционер. Холод. Выключил кондиционер. Пультом управления...", т.е. текстом не "для людей". Что, на мой взгляд, противоречит здравому смыслу, и бросает тень на Яндексоидов, в смысле их способности реализовать свою основную идею "выдача страниц созданных для людей релевантных запросу пользователя".

К тому же, есть у меня сомнения и в корректности данного эксперимента в целом, т.к. где учет объема текста на странице, весовых коэффициентов расположения предлогов относительно начала страница, коэффициента кучности расположения предлогов, весового коэффициента каждого предлога, коэффициента естественности союзов?

Последний раз редактировалось Anryk; 02.12.2006 в 13:31..
Anryk вне форума   Ответить с цитированием
Старый 02.12.2006, 13:11   #6
Разработчик
В поиске есть всё
 
Регистрация: 23.05.2006
Адрес: Санкт-Петербург
Сообщений: 4,973
Репутация: 77044
Отправить сообщение для Разработчик с помощью ICQ

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

Цитата:
Сообщение от ХренРедькиНеСлаще
Практические выводы для реальной работы:
Убрать все лишние предлоги, союзы и так далее со своих страниц. Тексты страниц составлять так, чтобы таких союзов и стоп слов было как можно меньше.
Пример.
Если на странице А сто "и" и это самое часто словоо на странице,
а на странице Б 10 "и" и это самое частое слово на странице, то страница Б в корень из(100/10) раз более релевантная страница, чем страница А (при одинаковом числе полезного ключевика). Корень из 100/10 это примерно 3,16.
Данные проверены еще раз сегодня ночью.
Вот в таком ключе гораздо большее количество людей поймут, что Вы пишете.
Разработчик вне форума   Ответить с цитированием
Старый 02.12.2006, 13:27   #7
aka352
Banned
 
Аватар для aka352
 
Регистрация: 23.03.2004
Адрес: Воронеж
Сообщений: 1,434
Репутация: 41103

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

ХРНС, за исследование - респект Но здравой логике оно действительно противоречит. Противоречит хотя бы потому, что учет стоп-слов резко увеличивает вычислительную нагрузку. И по сути не несет в себе никакой логики, т.к. стоп-слова не несут смысловой нагрузки.
У меня есть свои соображения по природе этих изменений, но пока еще размышляю...
aka352 вне форума   Ответить с цитированием
Старый 02.12.2006, 13:39   #8
IndexSa
Академик
 
Аватар для IndexSa
 
Регистрация: 24.12.2005
Сообщений: 2,063
Репутация: 240724

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

Рассмотрел конкурентов и под таким углом. Неа, есть и больше чем у меня и меньше. Кто нибуть ещё смотрел?
__________________
скоро все тут напишу. или нет
IndexSa вне форума   Ответить с цитированием
Старый 02.12.2006, 13:40   #9
MiRaj
Академик
 
Аватар для MiRaj
 
Регистрация: 03.07.2006
Адрес: UK
Сообщений: 8,444
Репутация: 924137

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

Цитата:
Сообщение от aka352
учет стоп-слов резко увеличивает вычислительную нагрузку
разве? чем же?

ХренРедькиНеСлаще, спалили тему.
MiRaj вне форума   Ответить с цитированием
Старый 02.12.2006, 13:43   #10
aka352
Banned
 
Аватар для aka352
 
Регистрация: 23.03.2004
Адрес: Воронеж
Сообщений: 1,434
Репутация: 41103

По умолчанию Re: Экспериментальные данные о "новом" алгоритме Яндекса

Цитата:
Сообщение от MiRaj
разве? чем же?
тем, что их нужно обсчитывать. До этого они просто фильтровались
aka352 вне форума   Ответить с цитированием
Ответ




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 04:08. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны