О методике рассчета PR по Brin&Page

euhenio
На сайте с 21.09.2001
Offline
357
1627

Привет всем.

Читал статью про вычисление PR и описание на GOOGLE. Возникли такие мысли-

1) Собственно, и на англиийском сайте написано, что вся процедура расчета PR есть умножение матрицы переходов с сайта на сайт (матрица 2D) на вероятность попадания юзера на каждый из сайтов (вектор 1D). Пусть dumping factor d=1. =>тогда

Итерационная процедура, при которой вектор вероятности p превращается (в пределе) сам в себя, т.е., явл. стационарным, есть собственный вектор матрицы переходов A:

p=A*p

при этом решение такое:

0=(A-E)*p, где Е - единичная матрица.

При этом вектор p - самосогласованная вероятность пребывания юзера на каждом из сайтов - является собственным вектором матрицы А.

Как известно, для матрицы MxM таких собственных векторов тоже М (столько, сколько страниц в базе). Поэтому вероятно, что то "решение", которое влияет на PR, есть всего лишь один из M векторов. С этих позиций понятны "колебания" PR при пересчетах базы страниц.

2) Это было при d=1. Рассмотрим другую крайность - d=0.

p=(1-d)+d*(A*p)=> p~1

взаимное влияние страниц друг на друга по линкам сводится к 0, и у всех PR~1.

_________

Ясно, что это крайности, но неочевидно, что методика расчета PR (как она есть) приводит к устойчивому единственному результату.

Вывод=>

Вполне могут существовать "области" веба, где d~1, и есть множественные решения,неотличимые с точки зрения итерационной процедуры (понятно, что она приводит к одному результату, тк выбор начального состояния = единицы). Решения, понятно, неравноправны. И случайны. Ведь неизвестны св-ва решений для d=0.85(?~среднее значение d?)

[This message has been edited by euhenio (edited 26-10-2001).]

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
P
На сайте с 31.08.2001
Offline
9
#1

Не совсем понятки исходные посылки - нет формулы, хотя бы в матричном виде, а то неясно, если мы матрицу А умножаем на вектор р, то куда подключается d?

Кроме того, с точки формальной математики опредение собственного вектора матрицы тесно связано с понятием собственного числа - "вектор является собственным для матрицы, если при действии вектора на матрицу получается исходный вектор, помноженный на число, которое называется собственным". Соответсвенно, и все формулы меняют свой вид.

Но в целом утверждение небезинтересное, нельзя ли даль ссылку на оригинал?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#2

usual we got 0.1<d<0.15.

У тебя d=1-d (смотря что брать за единицу ), т.е. 0.85<d<0.9

И выбирается оно именно из соображений сходимости процесса...

euhenio
На сайте с 21.09.2001
Offline
357
#3

2paul-

Эта ссылка уже была http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm с алгоритмом расчета PR.

______

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. !2AIK- We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.

________

Конечно, вектор умножается на соб.зн-е, но оно=1 либо нормируется к 1 (1, за счет того, что сумма всех PR / к-во страниц = 1 по определению.). Векторной формулы в явном виде не давали, но если вектор=вероятности по сайтам i, а матрица=к-во ссылок с сайта i на j, это просто формализация алгоритма расчета.

2Aik-

Это как, для каждого сайта выбирать d для сходимости процесса? d, насколько я понял, вероятность того, что юзер закончил на этом сайте (или 1 минус это), и для каждого сайта своя, выбирается априори (м.б, из свойств текста). d фиттить для каждого сайта - немаленькое число свободных переменных.

[This message has been edited by euhenio (edited 26-10-2001).]

euhenio
На сайте с 21.09.2001
Offline
357
#4

Цитата оттуда же-

_________

. And, the d damping factor is the probability at each page the "random surfer" will get bored and request another random page. One important variation is to only add the damping factor d to a single page, or a group of pages. This allows for personalization and can make it nearly impossible to deliberately mislead the system in order to get a higher ranking

_________

AiK
На сайте с 27.10.2000
Offline
257
AiK
#5

1) сумма всех PR(A) должна быть равна единице

(вероятность того, что я попаду хотя бы на одну страницу равна 1. Вероятность, того, что я попаду на страницу A есть PR(A))

2) коэффициент затухания выбирается из соображений сходимости процесса умножения матрицы на вектор, т.е. коэффициент один на всех, а не для каждого свой.

euhenio
На сайте с 21.09.2001
Offline
357
#6

PR не может быть делен на число страниц, тк там есть-

PR=(1-d)+d*(Sum), т.е. при каждой итерации PR приближается к 1, dumping и сделан, видимо, для этого. Не сумма PR=1, а =числу страниц, при этом в среднем получится PR=1 по Инету. Это очевидно. Если проводить итерацию N раз, сдвиг к 1 будет слишком велик (от числа, близкого к PR~0=1/N, где N=сайтов в Инете).

Собственно, это и неважно, как считать.

Кроме того, как я понял из описания, d все-таки разные. Если даже и нет, это было бы хорошим улучшением.

Самое главное, неясно, достаточно ли d=0.85 для пресловутой сходимости.... Кто-нибудь знает, как бы это можно посчитать?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#7

Э... либо ты невнимательно читал про PageRank, либо не очень хорошо знаком с теорией вероятности.

Представь, что ты знаешь только две страницы в интернете А и Б. Какова вероятность того, что ты запустив браузер пойдёшь на страницу А? Правильно 1/2. Точно такая же вероятность, что ты пойдёшь на страницу Б. Сумма этих вероятностей равна единице (раз уж ты вылез в Интернет, то на одну из этих страниц ты точно зайдёшь ). И PageRank у каждой из страниц будет равен 1\2, не зависимо от того ссылаются они друг на друга или нет. d вводится потому, что если ты знаешь, скажем два набора не связанных друг с другом страниц, ты рано или поздно перейдёшь от одного набора к другому не по ссылке, а просто наберёшь в браузере URL ручками. Если бы этот коэффициент не вводили, то пришлось бы допустить, что ты бродишь только по взаимосвязанным страницам, что в общем случае не верно.

Теперь если просто считать по формуле (знаем те же 2 страницы и они друг с другом не связаны) PR(A)=PR(Б)=0.15 без нормировки.

По твоему утверждению :

<font face="Verdana" size="2">
сумма всех PR / к-во страниц = 1 по определению
</font>

(0.15+0.15)/2 = 0.15 (!=1)

Но, если ты проведёшь нормировку, так что

PR(A) + PR(Б) =1 ты получишь

PR(A)=PR(Б)=0.5, что соответсвует "действительности".

Надеюсь к случаю из N страниц сможешь перейти самостоятельно

euhenio
На сайте с 21.09.2001
Offline
357
#8

Я предполагаю, что слова "сумма всех PR=1" говорятся только для придания формального смысла PR (=вероятность), и то при конечном выводе, а не во время итераций.

Посуди сам- пусть есть 1000000 страниц, тогда:

1) Начнем с ПР=1, сделаем итерацию, получим ПР ПОРЯДКА 1. Разделим сумму ПР на 1000000, получим ПР порядка 0.000001

2 итерация) Начнем с ПР=0.000001, возьмем сумму по ссылкам, получим тот же порядок

+

Затем учтем d=0.85, получим

ПР~0.15+0.85*(~0.000001)~0.15

Разделим сумму ПР на 1000000, получим ПР порядка 0.00000015

3 итерация) Начнем с ПР=0.00000015, возьмем сумму по ссылкам, получим тот же порядок

+

Затем учтем d=0.85, получим

ПР~0.15+0.85*(~0.00000015)~0.15

Разделим сумму ПР на 1000000, получим ПР порядка 0.00000015-------

при этом ПР определяется РЕАЛЬНО ТОЛЬКО числом 0.15

И так далее.

Математически d нивелирует разницу сайтов в ПР, СДВИГАЯ ПР К 1 !!! Если проводить расчеты так, как ты говоришь, это есть сдвигание нулей к 1, тогда у всех сайтов ПР практически одинаков, на уровне (1-d)/N сайтов.

Мне кажется, ты не пробовал сам это считать. Да, в статье на сайте используется тот же метод. Привести это все к вероятности легко можно после того, как сходимость достигнута. А так сходимости у тебя не будет- то ПР ~0.15, то ~0.00000015

euhenio
На сайте с 21.09.2001
Offline
357
#9

Увы, но похоже, действительно расходимости нет... На матрицу и вектор вероятности PR(i) наложены ограничения (элемент 1&gt;P(i)&gt;0).

А так хотелось.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий