на форме добавления:
?
Часто когда хотят что-то найти ищут на обоих.
Т.е. эта статистика скорее говорит, какой запрос в каком кол-ве случаев, будет набран первым.
Теоретически возможно, если бы сведения, полученные после заходов робота по разные стороны от ротации как-то объединялись. Но, имхо, было бы очень странно, если бы так и было. Более логичным есть учет последних данных.
Еще, если пересчет распределенный (и данные от таких заходов робота попали на разные processing centers), то может, конечно, получится, что одни и те же внутренние страницы временно получат разный ранг. Но ведь это очевидная "коллизия", врядли она разрешается взятием максимума :)
В посетителях, да, конечно, смысл есть. Но с текущим значением ПР это ж не связано.
Похожие сервисы действительно популярны (кроме del.icio.us, есть, напр., technorati.com для блогов, digg.com тоже что-то из этой оперы), есть еще аналоги по идее, но не по содержанию, типа 43things.com. Ну и вообще freetagging рулит:)
Смысла в том, что есть PR особого нет.
Все равно там
Ну, я бы не стал противопоставлять марковские цепи и описанный в начале способ. И то, и то можно представить как марковские цепи, скорее всего они и используются.
Что-то вроде такого (навскидку, сырая гипотеза, конечно): для каждой тематики тренируется цепь на текстах из неё, с учетом стемминга, может быть отдельных состояний для учета частей речи и предложения, благо их немного и это только линейно увеличит число состояний. Порядок -- слов штук 5. Может еще навернули пару уровней для генерации сложноподчиненных предложений. Генерация текста происходит по натренированной цепи с модификатором выхода, учитывающим текущий (тренируемый или нет) род, падеж, whatever для данного словосочетания/подлежащего. Последнее - это, в принципе, шаг генерации выхода по скрытому состоянии HMM, т.е. с самого начала можно тренировать и эти параметры, но, наверное, не нужно.
Думаю, там основная работа - это не тренировка цепи, а ручной подбор множества состояний и правила для учета особых ситуаций, работа над качеством тренировочной выборки, и т.п. и т.д.
А если из документа идут ссылки на сайт? Например, это pdf со ссылками или тот же doc.
А кто-то может что-то сказать о CMS Drupal с точки зрения поисковиков и оптимизации?