Вообще то Pagerank - это главные собственные значения модифицированной матрицы смежноcти веб графа или или стационарные значения вероятностей некого марковского процесса живущего на узлах этой матрицы.
Связывать плохо формалиpизуемую "интересность" сайта с этими точно вычисляемыми величинами- всего лишь гипотеза , которую и хотелось обсудить.
На самом деле очевидного ответа нет видимо
см например
"Predicting Fame and Fortune: PageRank or Indegree?"
Our experiments report a high correlation between PageRank and log indegree on the WWW. Given the similarity between indegree and PageRank we find no reason to use the more computationally expensive PageRank over indegree. Page quality as represented by PageRank in the Google Toolbar, in the context of company home pages and in certain search engine optimiser webs, would be just as useful if based on indegree. This finding, in combination with previous PageRank failures, casts serious doubt on the usefulness of PageRank
over indegree.
Один из важных параметров проблемы это масштаб -вы можете грубо оценить время, необходимое при вашем подходе для кластеризации индекса Google, например (> 4 млрд документов) ?