Cage

Рейтинг
82
Регистрация
17.08.2002
Интересы
Музыка, электрогитара
alut:
Cage, Теркин, ребята, а Вы не хотете сначала расписать эксперимент по пунктам.

А при чем тут я? :)

Я так же, как и Вы, обсуждаю чужой эксперимент. Теркин почему-то не ответил, но если хотите, могу написать свою точку зрения.

1. Цель обсуждаемого эксперимента получить некоторые данные для другого эксперимента, который позволит вычислить damping factor d и позволит выявить зависимость PR на баре от реального PR.

2. Что Вы имеете в виду под инструментами (в данном случае) не очень понятно. Гугл-бар - вот наш инструмент :)

3. Способ использования еще менее понятен.

4. Тоже сомнительный пункт. Гугл-бар показывает какие-то результаты, остальное высчитывается через формулы.

5. Под помехами, скорее всего, Вы имели в виду погрешности. Я до сих пор считаю, что они могут оказаться очень большими. Я также почти уверен, что получить страницу с PR ровно 2 или 1 на баре не возможно.

6. Я не считаю, что это необходимо. Повторяемостью отличается любой научный подход, имхо.

skat:
предлагаю вот такой эксперимент: человек "А" ставит ссылки откуда только можно любыми доступными способами
...
человек "Б" продумывает схемы, вычисляет логарифмы

человек "В" пишет программы для СЕО...

Как Вы вообще можете сравнивать этих людей? Каждому свое. Человек "Б" пытается приумножить знания (причем зачастую, заметьте, не только свои). У всех троих разные цели. Давайте сравним, кто напишет больше программного кода в Kb? :)

Нужно понимать, что вычисление того же d - совершенно бесполезная информация с практической точки зрения. Ссылок это не добавит, и в то же время, вообще ничего не зная о формуле расчета PR, можно не только успешно продвигать сайты, но и иметь очень большой PR на своих сайтах.

Но с теоретической точки зрения значение этого d, как и метод его вычисления, может быть очень интересен. И по-моему, это интересно не только мне одному...

Теркин:
(1-d) это маленькая величина по отношению к x1 думаю она будет соизмерима с погрешностью получения единички из эксперимента.

Вот не понятно, почему Вы так решили. x1 - вот это действительно маленькая величина. Сумма реальных PR всех страниц в интернете равна 1. Представьте, во сколько тысяч раз десятка весомее, чем Ваша единичка. Теперь представьте, сколько миллионов страниц в интернете с разным уровнем авторитетности. И сумма PR для всех равна 1!

Правда, здесь есть небольшая оговорка: для той формулы, которую Вы записали, требуется нормировка, т.е. x1 все-таки может быть >1. Но не очевидно, что после решения системы уравнений для всех страниц интернета еще до нормировки PR у всех страниц будет намного больше (1-d).

Можно посмотреть на это с другой стороны. В формуле уже с учетом нормировки вместо (1-d) будет (1-d)/N, где N - кол-во страниц в интернете. Но и x1 тогда будет порядка 10^(-10) или даже еще меньше...

Теркин:
Третье множество это округленный ПР на баре. Нескольким элементам из первого множества соответствует один элемент из третьего. И назад вернуться уже нельзя.

Как раз собирался Вам написать, что функции, обратной к операции округления не существует, но Вы и сами все это описали :)

Теркин:
x1 = (1-d) + d*(x2/50) с потерями
x1 = (1-d) + x2/55 без потерь
откуда
(1-d) + d*(x2/50) = (1-d) + x2/55
d*(x2/50) = x2/55
d/50 = 1/55
d = 50/55

С точки зрения математики, по-моему, здесь все верно. Как не трудно заметить, все Ваши иксы сократились. То есть Вам даже не важно, выделились ли целые PR на баре 1 и 2, а важно только то, чтобы x1 и x2 в первом исходном равенстве равнялись x1 и x2 во втором.

Но я считаю, что ошибка есть здесь

Следовательно, без потерь нам бы понадобилось 55 ссылок в обоих случаях.

Это очень сомнительное утверждение, которое, к тому же, ничем не доказано. Если Вам даже удастся получить цифры 50 и 60 с описанным Вами смыслом, гораздо более логично (на мой взгляд) было бы записать:

x1 = (1-d) + d*(x2/50)

x2 = (1-d) + d*60*x1

Здесь уже так просто все не сокращается. Это система из двух уравнений с тремя неизвестными.

Вернемся к Вашему равенству

PR(x1) = PR((1-d) + d*(x2/50))

PR(x1)=1

PR(x2)=2

Как из PR(x2)=2 Вы можете найти

PR((1-d) + d*(x2/50)) ?

Вы не могли бы записать это в виде равенства

PR((1-d) + d*(x2/50)) = ... ?

Теркин:
1. Новую не нужно придумывать. У вас ошибка. Формула для истинного ПР, а вы подставляете баровский.

Вообще-то весь мой 21 пост в этой теме посвящен тому, что так делать нельзя. Подставлял для наглядности :)

Теркин:
Обозначим функцию для получения точного, не округленного ПР через PR().
...
и только тогда PR(x1) можно заменить на 1

Давайте для начала уточним, что Вы имеете в виду под функцией PR(). Что в ней аргумент, а что - зависимая переменная?

это "функция для получения точного, не округленного ПР" (реального), зависящая от PR на баре

x1 = PR(B)

или это функция получения округленного PR на баре, зависящая от реального PR

B = PR(x1)

?

Теркин:
Первое (1 - d) это статическая величина - начальный ПР страницы. В баре эта величина будет совсем не 1-d. Поэтому использовать данную формулу нельзя.

Ну это же не повод придумать новую, неправильную формулу :)

Теркин:
Что я действительно хочу узнать, так это сколько нужно ссылок с двойки, чтобы по одной из них передать единичку.

Эта информация сомнительной полезности :)

Ведь ее не получится интерпретировать для страниц с бОльшим PR...

Теркин:
Обозначим функцию получения значения Вашего бара - СR (CageRank)
CR(x1 * x2) = CR(x1) * CR(x2)
CR(x1 / x2) = CR(x1) / CR(x2)
Две арифметические операции остались. Жаль только, что ссылки складываются и делятся, а сложение у Вас не работает. ;)

Пересчитайте еще раз CageRank :)

2!=200

50!=0.5

Миныч:
А почему именно 100, 70, ? В данных результат измерений, а не высосанные из пальца цифры. Главное - что какую бы линейку мы не взяли (download.ru,...), в пределах погрешности графики совпадают.

Откуда взялись мои цифры, я уже говорил. Они произвольные.

Вы делаете свои выводы на основании того, что Вы берете разный набор цифр (разные линейки в Вашей терминологии), проделываете над ними нехитрые операции (X'=КОРЕНЬ(LN(X)) и нормировка) и получаете почти одинаковые результаты. Я Вам показал, что ничего необычного в том, что результаты одинаковые, нет. Они часто будут получаться одинаковыми. Вы только вдумайтесь! Результаты почти совпали с Вашими даже с _произвольными_ числами :)

А Вы ведь используйте тот факт, что результаты одинаковые и делаете многозначительные выводы.

Такая "одинаковость" результатов обеспечивается особенностью придуманных Вами преобразований (функция + нормировка).

Миныч:
Корень из логарифма, насколько я знаю, можно смело относить на мой счет )) И я считаю это своим достижением.

Я поздравляю Вас с достижением, но вот только Вы не сказали, откуда эта формула взялась?

Миныч:
Собственно, любая монотонная функция может быть ранжирующей, но математики любят линейные функции, так вот именно эта функция "линеаризует" релевантность, т.е релевантность при такой функции становится пропорциональной числу найденных слов, умноженному на корень из логарифма веса (для однословных запросов).

Здесь Ваши термины становятся совершенно не понятны. Что означает

- функция "линеаризует" релевантность

- релевантность становится пропорциональной числу найденных слов (слов, найденных где?)

- "тошнота", как коэффициент спама

Но мы оставим вопрос обсуждения Вашей терминологии, т.к. есть более интересные вопросы. Например, с чего Вы взяли, что

вот именно эта функция "линеаризует" релевантность

?

Миныч:
Можно взять и другую функцию

Взять функцию y=x (т.е. обойтись одной нормировкой без преобразований) можно? Попробуйте! Сравните результаты между собой! Удивитесь! :)

К сожалению, Вы не ответили на мои самые главные вопросы:

На каком основании Вы из рангов вычитаете ранги? Это делать нельзя...

Имеет ли значение запрос?

Проанализируйте выдачу по запросу "недвижимость|вышивание". Сравните полученные результаты с Вашими...

alut:
Эксперимент займет не меньше месяца (даже более простые столько длились), а скорее всего 2-3 месяца - пока проиндексируются и учтутся все сылки. А это согласитесь, совсем не налету.

alut, я кажется понял, как мне нужно объяснить свою позицию :)

Представьте, что мы подождали 4-6 мес. При этом ссылки на страницу (где нарисована 5) постоянно изменялись: ставились новые; убирались; на тех страницах, которые ссылаются на 5 много раз изменялся PR и т.д. Но на страницы всего дерева никто, кроме пятерки, не ссылается (как показано на рисунке). Кстати, пятерка - это условное название. На самом деле это может быть шестерка или даже семерка - не важно.

В один прекрасный день Гугл решил пересчитать PR. Поисковые системы - это инертные механизмы, поэтому какие-то ссылки Гугл еще не нашел, а какие-то ссылки уже убрали, но Гугл об этом не знает. Но посчитать PR ему нужно, поэтому он работает с тем, что ему известно. Он делает пересчет PR для всех страниц в интернете. Результаты отображаются в баре до следующего пересчета. И до следующего пересчета уже ничего не меняется.

С точки зрения эксперимента это выглядит так, как будто в систему через одну страницу "влили" достаточно большое кол-во PR. Сколько его, со скольких страниц он собрался - не важно, т.к. используется тот факт, что на следующем уровне PR будет одинаковым.

alut:
Мы говорим не о математике - а о методике постановки эксперимента.

Хочу заметить, что Миха, на которого Вы периодически ссылаетесь, в своей статье использует термины математической статистики :)

Теркин:
Откуда получается что 2 по одной из 50-ти ссылок должна передать 2/50 ПР = 0,04ПР соответственно в данном случае коэффициент потерь равен 25.

Все, теперь я все понял в Вашем эксперименте. Вы хотите вычислить коэффициент d (damping factor) в формуле расчета PR. Вы исходите из того, что Вам удастся выделить чистую двойку (PR=2) и чистую единицу (PR=1), на которую эта двойка ссылается.

Теперь я предлагаю записать правильную формулу PR :), подставив в нее Вашу двойку, единицу и 50 ссылок.

1 = (1-d) + d*(2/50)

Как нетрудно заметить, d=0 для любого количества ссылок. Почему?

А все потому, что Вы не обратили внимание на мои слова

Вы же понимаете, что тот PR, который отображается в баре, это не тот PR, который участвует в расчетах (в формулах).

Представьте, что PR на каком-то вымышленном нами баре отображается как

B = 100*корень(x),

где B - PR в баре, x - реальный PR.

Теперь представьте, что у нас есть две страницы:

стр.1 - x=0,01

стр.2 - x=0,04

Заметьте, что реальный PR второй страницы в 4 раза (больше), чем первой. Пересчитаем PR для нашего бара. Получим:

стр.1 - B=10

стр.2 - B=20

PR на баре для второрой страницы всего в 2 раза больше. Добавьте к этому то, что мы не знаем точную формулу пересчета для настоящего бара (но можем представить ее в общем виде), и то, что PR на баре еще и округляется до целого значения. Если Вы над этим задумаетесь, то поймете, что в Вашем подходе к расчетам масса проблем...

Вернемся к Вашей формуле

1 = (1-d) + d*(2/50)

В нее единица и двойка входят с таким предположением, что шкала в Гугл-баре линейная (привет Казаку :)), но все-таки пока что большинство людей исходит из того, что это не так.

alut:
Как раз в общем случае это правило верно, но могут быть исключения.

"Исключения" бывают в правилах русского языка, а не в математике :). Если хотя бы в _одном_ случае формулировка теоремы или закон в физике нарушаются - это уже не закон.

alut:
Если говорить о предложенном эксперименте ... Помеха (даже в виде пары ссылок, которые зависят от реальных ПР ссылающихся сайтов) в виде шторма спутает все карты.

Попробуем еще раз :). Как я уже говорил, расчет PR - это сложный итерационный процесс. Он не проходит локально, для какой-то части страниц. Если пересчитывается PR, то сразу для всех. Вы исходите из того, что Вы поставите пару ссылок, и все собьется. Я же считаю, что не важно как получен исходный PR (там, где на рисунке одиноко стоит пятерка). Да, ссылки на ветви этого дерева испортят результат, но кто и как ссылается на пятерку не важно.

Такое ощущение, что Вы считаете, что PR пересчитывается налету для каждой страницы. Но это же не так :)

Вы как будто исходите из того, что только автор темы сел анализировать результаты, как вдруг раз - и какие-то флешмоберы понаставили на его страницу несколько ссылок с десяток. Пока автор приходил в себя от шока, все десятки отвалились, а вместе с ними и половина старых ссылок. Все так быстро меняется - не уследишь :)

На самом деле не важно, кто туда ссылается после пересчета. В момент пересчета PR какие-то ссылки учлись, какие-то нет, и на этом все. Когда Вы смотрите на все страницы этого дерева, Вы можете быть уверены, что все посчиталось _одновременно_.

А внутрь структуры нельзя ставить лишние ссылки потому, что в ходе эксперимента предполагается использовать тот эффект, что PR делится равномерно по ссылкам. Если бы это не использовалось в ходе эксперимента, можно было бы ставить ссылки и внутрь...

alut:
Если говорить о предложенном эксперименте - фактически об абсолютном измерении реального ПР

Вообще-то об этом нам никто еще ничего и не сказал, как это сделать :)

Теркин:
Для этого и нужны все эти страницы, чтобы на третьем уровне дерева ссылок (см. рис.) выделить точную двойку (либо тройку что получится) не 2.5, а 2.0. Разумеется, там будет маленькая погрешность, которую можно будет рассчитать только по завершению эксперимента (от 0,067 до 0,02), но это не так важно.

Вы же понимаете, что тот PR, который отображается в баре, это не тот PR, который участвует в расчетах (в формулах). Когда Вы говорите о двойке, не очень понятно, что Вы имеете в виду. Поскольку реальный PR у страницы с PR=2 очень мал, погрешность может оказаться нааамного больше, чем Вы ожидаете...

Теркин:
чтобы на последнем шаге у нас не оказались все страницы с нулевым PR

Опять же не забывайте, что нулевой он только в баре, а на самом деле он всегда не нулевой.

alut:
А если они есть - все Ваши эксперименты - гадание на кофейной гуще. Любое изменение параметров существующих внешних ссылок приведет к большим изменениям, чем те факторы, на которых Вы собираетесь проверять идею.

Расчет PR - это сложный итерационный процесс. Когда он закончен, Вы можете изучать результаты, пока они снова не будут пересчитаны. О каких изменениях параметров Вы говорите?

alut:
У него был совсем другой эксперимент - там определялись СРАВНИТЕЛЬНЫЕ (они одинаково колеблются при изменении внешних условий), а не АБСОЛЮТНЫЕ показатели.

Я Вам отвечал как на "1-е правило" проведения экспериментов. Естественно, я считаю, что это правило в общем случае не верно. Но это не отрицает его обязательности в некоторых _частных_ случаях.

2 Теркин

Вы ожидаете получить: "истинный PR", "основание логарифма" и "коэффициент потери". Вы не поделитесь с нами, каким образом вы собираетесь все это получить? ;)

The WishMaster:
Тут тоже есть слишком много факторов. Модель будет слишком сложной, проще экспериментировать в реальных условиях.

С этим, в некотором смысле, можно согласиться. Но, с другой стороны, факторов для анализа (у самих поисковых систем) не так много, имхо.

anser06:
Уверен, что никакой экономии сил, денег и времени не будет, т.к. 99% оптимизаторов этого форума тут же воспользуются этой формулой. И всех, что ли, в топ?

Вопрос интересный. Формула не обязательно должна быть публичной. Мы тут скорее обсуждаем возможность ее получения.

alut:
есть задачи принципиально неразрешимые. ИМХО но Ваша относится именно к таким

Я вот как раз и интересуюсь, в чем ее "принципиальная неразрешимость". Я уже задавал этот вопрос в этой теме (повторяемся :)). Вот Вы, alut, как думаете?

Наверное, люди раньше думали, что вычислить скорость света тоже "принципиально невозможно". На данный момент у меня сложилось мнение, что многие считают, что получить формулу релевантности невозможно только потому, что они не знают, как ее получить...

По методике Миныча тоже что-то никто не высказался, к сожалению :).

alut:
Полная зависимость (а не формула) от разных факторов - бесполезна. Даже если это произойдет - Яндекс будет вынужден значительно изменить алгоритм

Я уже говорил (опять повторяюсь :)), имея метод, формулу можно получать после каждой смены алгоритма. Там же я заметил, что не давать информацию об алгоритме Яндекс _не_может_ (!). Яндекс отображает выдачу пользуясь характеристиками сайтов. И то, и другое нам доступно, и это не скроешь :)

Всего: 220