Думаю, что народ хочет открытого айпияяяяя, чтобы можно было рассчитывать по своему и менять результаты выборки.
Ксати, Дмитрий, на тему PR (очень это пиар напоминает)
Predicting Fame and Fortune: PageRank or Indegree?
Хотя, возможно, что Ромип в тепершнем виде не самая хорошая идея, потому как там коллекция маленькая там с PR не очень развернешься.
Ok, тогда это хорошая тема для Ромимпа. Информация должна быть открыта. (с) О. Бартунов... :-)
Ага, тот самый Крюков. :-) И спрашивает нас как учитывать PR при оценке релевантности. Дима, скажите, а не хватит ли Рунету поисковых машин? Яндекс, Рамблер, Апорт, Гугль, Яху, Мсн, еще же ведь есть как минимум пара стартапов Нигма, Вебальта.
Это для людей с дебаггером под мышкой, пардон за каламбур.
так обратите внимание, они почти все в доступном виде есть (в гугльскаляре статьи группируются, в группе, если статья популярна бывают "бесплатные" pdf)
http://scholar.google.com/scholar?num=100&hl=en&lr=&q=index+freshness+crawl&btnG=Search
В частности,
Synchronizing a Database to Improve Freshness
J Cho, H Garcia-Molina кажется агитирует за последовательный обоход индекса, впрочем, я могу ошибаться, уже давно читал. В любом случае Гарсия-Малина крутой классик, worth reading.
1) В HTTP запросе есть такой параметр if-modified-since или что-то около-того
2) По каждой из страниц можно считать как часто она меняется и в зависимости от этого увеличивать или уменьшать частоту выборки данной страницы. Будем примерно болтаться вокруг среднего времени обновления этой страницы. Бонус: необновляемые страницы будут обходиться все реже и реже. Например, мы выбирем страничку каждую неделю и почти всегда она за это время успевает измениться. Мы по некоторому эмпирическому правилу уменьшаем время обхода, скажем до 4 дней. Если при 4х дневных обходах она успевает измениться в большинстве случае, то еще сокращаем время. Грубо говоря, увеличивая и уменьшая частоту обхода можно примерно оценить время модификации страницы.
3) При обходе одного сайта (и кажись в RFC это есть) нужно делать задержки, иначе сайту может быть плохо. ИМХО не все поисковики так делают, а зря
PS:
4) Да и CRC надо дополнительно использовать для страниц, которым в качестве даты изменения возвращается дата выдачи страницы.
Ну если хорошую иномарку на осмотр подвески можно раз в годик тащить пр умеренной 10-20 тысяч в год езде, то с нашей машинкой заглядывать под копот лучше почаще. иногда, скажем, какой-то приборчик совершенно очевидно на грани износа и сервисмен это вполне может определить. Опять-таки, не для кого не секрет, что колодки на российских машинах ходят меньше, даже импортные. если на тазе 50 тысяч проехал, то это из разряда рекордов, а на иномарке нормально. ГРМ тот же осматривать на предмет износа, натяжение ремня генератора и напряжение генератора мерять :-)