sergei_t

Рейтинг
17
Регистрация
25.08.2003

Вообще то Pagerank - это главные собственные значения модифицированной матрицы смежноcти веб графа или или стационарные значения вероятностей некого марковского процесса живущего на узлах этой матрицы.

Связывать плохо формалиpизуемую "интересность" сайта с этими точно вычисляемыми величинами- всего лишь гипотеза , которую и хотелось обсудить.

На самом деле очевидного ответа нет видимо

см например

"Predicting Fame and Fortune: PageRank or Indegree?"

Our experiments report a high correlation between PageRank and log indegree on the WWW. Given the similarity between indegree and PageRank we find no reason to use the more computationally expensive PageRank over indegree. Page quality as represented by PageRank in the Google Toolbar, in the context of company home pages and in certain search engine optimiser webs, would be just as useful if based on indegree. This finding, in combination with previous PageRank failures, casts serious doubt on the usefulness of PageRank

over indegree.

Превосходство алгоритма PageRank перед обычным подсчетом входящих ссылок состоит в том, что учитывается не только количество входящих ссылок, но и их качество. [/QUOT Качество в контексте вопроса означает лучшее ранжирование . Так вопрос в этом и состоял почему качество страницы=числу ссылок на нее "хуже" при расчете ранжирования чем качество страницы=PageRank(страницы)

Один из важных параметров проблемы это масштаб -вы можете грубо оценить время, необходимое при вашем подходе для кластеризации индекса Google, например (> 4 млрд документов) ?