А при чем тут я? :)
Я так же, как и Вы, обсуждаю чужой эксперимент. Теркин почему-то не ответил, но если хотите, могу написать свою точку зрения.
1. Цель обсуждаемого эксперимента получить некоторые данные для другого эксперимента, который позволит вычислить damping factor d и позволит выявить зависимость PR на баре от реального PR.
2. Что Вы имеете в виду под инструментами (в данном случае) не очень понятно. Гугл-бар - вот наш инструмент :)
3. Способ использования еще менее понятен.
4. Тоже сомнительный пункт. Гугл-бар показывает какие-то результаты, остальное высчитывается через формулы.
5. Под помехами, скорее всего, Вы имели в виду погрешности. Я до сих пор считаю, что они могут оказаться очень большими. Я также почти уверен, что получить страницу с PR ровно 2 или 1 на баре не возможно.
6. Я не считаю, что это необходимо. Повторяемостью отличается любой научный подход, имхо.
человек "В" пишет программы для СЕО...
Как Вы вообще можете сравнивать этих людей? Каждому свое. Человек "Б" пытается приумножить знания (причем зачастую, заметьте, не только свои). У всех троих разные цели. Давайте сравним, кто напишет больше программного кода в Kb? :)
Нужно понимать, что вычисление того же d - совершенно бесполезная информация с практической точки зрения. Ссылок это не добавит, и в то же время, вообще ничего не зная о формуле расчета PR, можно не только успешно продвигать сайты, но и иметь очень большой PR на своих сайтах.
Но с теоретической точки зрения значение этого d, как и метод его вычисления, может быть очень интересен. И по-моему, это интересно не только мне одному...
Вот не понятно, почему Вы так решили. x1 - вот это действительно маленькая величина. Сумма реальных PR всех страниц в интернете равна 1. Представьте, во сколько тысяч раз десятка весомее, чем Ваша единичка. Теперь представьте, сколько миллионов страниц в интернете с разным уровнем авторитетности. И сумма PR для всех равна 1!
Правда, здесь есть небольшая оговорка: для той формулы, которую Вы записали, требуется нормировка, т.е. x1 все-таки может быть >1. Но не очевидно, что после решения системы уравнений для всех страниц интернета еще до нормировки PR у всех страниц будет намного больше (1-d).
Можно посмотреть на это с другой стороны. В формуле уже с учетом нормировки вместо (1-d) будет (1-d)/N, где N - кол-во страниц в интернете. Но и x1 тогда будет порядка 10^(-10) или даже еще меньше...
Как раз собирался Вам написать, что функции, обратной к операции округления не существует, но Вы и сами все это описали :)
С точки зрения математики, по-моему, здесь все верно. Как не трудно заметить, все Ваши иксы сократились. То есть Вам даже не важно, выделились ли целые PR на баре 1 и 2, а важно только то, чтобы x1 и x2 в первом исходном равенстве равнялись x1 и x2 во втором.
Но я считаю, что ошибка есть здесь
Это очень сомнительное утверждение, которое, к тому же, ничем не доказано. Если Вам даже удастся получить цифры 50 и 60 с описанным Вами смыслом, гораздо более логично (на мой взгляд) было бы записать:
x1 = (1-d) + d*(x2/50)
x2 = (1-d) + d*60*x1
Здесь уже так просто все не сокращается. Это система из двух уравнений с тремя неизвестными.
Вернемся к Вашему равенству
PR(x1) = PR((1-d) + d*(x2/50))
PR(x1)=1
PR(x2)=2
Как из PR(x2)=2 Вы можете найти
PR((1-d) + d*(x2/50)) ?
Вы не могли бы записать это в виде равенства
PR((1-d) + d*(x2/50)) = ... ?
Вообще-то весь мой 21 пост в этой теме посвящен тому, что так делать нельзя. Подставлял для наглядности :)
Давайте для начала уточним, что Вы имеете в виду под функцией PR(). Что в ней аргумент, а что - зависимая переменная?
это "функция для получения точного, не округленного ПР" (реального), зависящая от PR на баре
x1 = PR(B)
или это функция получения округленного PR на баре, зависящая от реального PR
B = PR(x1)
?
Ну это же не повод придумать новую, неправильную формулу :)
Эта информация сомнительной полезности :)
Ведь ее не получится интерпретировать для страниц с бОльшим PR...
Пересчитайте еще раз CageRank :)
2!=200
50!=0.5
Откуда взялись мои цифры, я уже говорил. Они произвольные.
Вы делаете свои выводы на основании того, что Вы берете разный набор цифр (разные линейки в Вашей терминологии), проделываете над ними нехитрые операции (X'=КОРЕНЬ(LN(X)) и нормировка) и получаете почти одинаковые результаты. Я Вам показал, что ничего необычного в том, что результаты одинаковые, нет. Они часто будут получаться одинаковыми. Вы только вдумайтесь! Результаты почти совпали с Вашими даже с _произвольными_ числами :)
А Вы ведь используйте тот факт, что результаты одинаковые и делаете многозначительные выводы.
Такая "одинаковость" результатов обеспечивается особенностью придуманных Вами преобразований (функция + нормировка).
Я поздравляю Вас с достижением, но вот только Вы не сказали, откуда эта формула взялась?
Здесь Ваши термины становятся совершенно не понятны. Что означает
- функция "линеаризует" релевантность
- релевантность становится пропорциональной числу найденных слов (слов, найденных где?)
- "тошнота", как коэффициент спама
Но мы оставим вопрос обсуждения Вашей терминологии, т.к. есть более интересные вопросы. Например, с чего Вы взяли, что
Взять функцию y=x (т.е. обойтись одной нормировкой без преобразований) можно? Попробуйте! Сравните результаты между собой! Удивитесь! :)
К сожалению, Вы не ответили на мои самые главные вопросы:
На каком основании Вы из рангов вычитаете ранги? Это делать нельзя...
Имеет ли значение запрос?
Проанализируйте выдачу по запросу "недвижимость|вышивание". Сравните полученные результаты с Вашими...
alut, я кажется понял, как мне нужно объяснить свою позицию :)
Представьте, что мы подождали 4-6 мес. При этом ссылки на страницу (где нарисована 5) постоянно изменялись: ставились новые; убирались; на тех страницах, которые ссылаются на 5 много раз изменялся PR и т.д. Но на страницы всего дерева никто, кроме пятерки, не ссылается (как показано на рисунке). Кстати, пятерка - это условное название. На самом деле это может быть шестерка или даже семерка - не важно.
В один прекрасный день Гугл решил пересчитать PR. Поисковые системы - это инертные механизмы, поэтому какие-то ссылки Гугл еще не нашел, а какие-то ссылки уже убрали, но Гугл об этом не знает. Но посчитать PR ему нужно, поэтому он работает с тем, что ему известно. Он делает пересчет PR для всех страниц в интернете. Результаты отображаются в баре до следующего пересчета. И до следующего пересчета уже ничего не меняется.
С точки зрения эксперимента это выглядит так, как будто в систему через одну страницу "влили" достаточно большое кол-во PR. Сколько его, со скольких страниц он собрался - не важно, т.к. используется тот факт, что на следующем уровне PR будет одинаковым.
Хочу заметить, что Миха, на которого Вы периодически ссылаетесь, в своей статье использует термины математической статистики :)
Все, теперь я все понял в Вашем эксперименте. Вы хотите вычислить коэффициент d (damping factor) в формуле расчета PR. Вы исходите из того, что Вам удастся выделить чистую двойку (PR=2) и чистую единицу (PR=1), на которую эта двойка ссылается.
Теперь я предлагаю записать правильную формулу PR :), подставив в нее Вашу двойку, единицу и 50 ссылок.
1 = (1-d) + d*(2/50)
Как нетрудно заметить, d=0 для любого количества ссылок. Почему?
А все потому, что Вы не обратили внимание на мои слова
Представьте, что PR на каком-то вымышленном нами баре отображается как
B = 100*корень(x),
где B - PR в баре, x - реальный PR.
Теперь представьте, что у нас есть две страницы:
стр.1 - x=0,01
стр.2 - x=0,04
Заметьте, что реальный PR второй страницы в 4 раза (больше), чем первой. Пересчитаем PR для нашего бара. Получим:
стр.1 - B=10
стр.2 - B=20
PR на баре для второрой страницы всего в 2 раза больше. Добавьте к этому то, что мы не знаем точную формулу пересчета для настоящего бара (но можем представить ее в общем виде), и то, что PR на баре еще и округляется до целого значения. Если Вы над этим задумаетесь, то поймете, что в Вашем подходе к расчетам масса проблем...
Вернемся к Вашей формуле
В нее единица и двойка входят с таким предположением, что шкала в Гугл-баре линейная (привет Казаку :)), но все-таки пока что большинство людей исходит из того, что это не так.
"Исключения" бывают в правилах русского языка, а не в математике :). Если хотя бы в _одном_ случае формулировка теоремы или закон в физике нарушаются - это уже не закон.
Попробуем еще раз :). Как я уже говорил, расчет PR - это сложный итерационный процесс. Он не проходит локально, для какой-то части страниц. Если пересчитывается PR, то сразу для всех. Вы исходите из того, что Вы поставите пару ссылок, и все собьется. Я же считаю, что не важно как получен исходный PR (там, где на рисунке одиноко стоит пятерка). Да, ссылки на ветви этого дерева испортят результат, но кто и как ссылается на пятерку не важно.
Такое ощущение, что Вы считаете, что PR пересчитывается налету для каждой страницы. Но это же не так :)
Вы как будто исходите из того, что только автор темы сел анализировать результаты, как вдруг раз - и какие-то флешмоберы понаставили на его страницу несколько ссылок с десяток. Пока автор приходил в себя от шока, все десятки отвалились, а вместе с ними и половина старых ссылок. Все так быстро меняется - не уследишь :)
На самом деле не важно, кто туда ссылается после пересчета. В момент пересчета PR какие-то ссылки учлись, какие-то нет, и на этом все. Когда Вы смотрите на все страницы этого дерева, Вы можете быть уверены, что все посчиталось _одновременно_.
А внутрь структуры нельзя ставить лишние ссылки потому, что в ходе эксперимента предполагается использовать тот эффект, что PR делится равномерно по ссылкам. Если бы это не использовалось в ходе эксперимента, можно было бы ставить ссылки и внутрь...
Вообще-то об этом нам никто еще ничего и не сказал, как это сделать :)
Вы же понимаете, что тот PR, который отображается в баре, это не тот PR, который участвует в расчетах (в формулах). Когда Вы говорите о двойке, не очень понятно, что Вы имеете в виду. Поскольку реальный PR у страницы с PR=2 очень мал, погрешность может оказаться нааамного больше, чем Вы ожидаете...
Опять же не забывайте, что нулевой он только в баре, а на самом деле он всегда не нулевой.
Расчет PR - это сложный итерационный процесс. Когда он закончен, Вы можете изучать результаты, пока они снова не будут пересчитаны. О каких изменениях параметров Вы говорите?
Я Вам отвечал как на "1-е правило" проведения экспериментов. Естественно, я считаю, что это правило в общем случае не верно. Но это не отрицает его обязательности в некоторых _частных_ случаях.
2 Теркин
Вы ожидаете получить: "истинный PR", "основание логарифма" и "коэффициент потери". Вы не поделитесь с нами, каким образом вы собираетесь все это получить? ;)
С этим, в некотором смысле, можно согласиться. Но, с другой стороны, факторов для анализа (у самих поисковых систем) не так много, имхо.
Вопрос интересный. Формула не обязательно должна быть публичной. Мы тут скорее обсуждаем возможность ее получения.
Я вот как раз и интересуюсь, в чем ее "принципиальная неразрешимость". Я уже задавал этот вопрос в этой теме (повторяемся :)). Вот Вы, alut, как думаете?
Наверное, люди раньше думали, что вычислить скорость света тоже "принципиально невозможно". На данный момент у меня сложилось мнение, что многие считают, что получить формулу релевантности невозможно только потому, что они не знают, как ее получить...
По методике Миныча тоже что-то никто не высказался, к сожалению :).
Я уже говорил (опять повторяюсь :)), имея метод, формулу можно получать после каждой смены алгоритма. Там же я заметил, что не давать информацию об алгоритме Яндекс _не_может_ (!). Яндекс отображает выдачу пользуясь характеристиками сайтов. И то, и другое нам доступно, и это не скроешь :)