itman

Рейтинг
64
Регистрация
26.05.2001

Думаю, что народ хочет открытого айпияяяяя, чтобы можно было рассчитывать по своему и менять результаты выборки.

Ксати, Дмитрий, на тему PR (очень это пиар напоминает)

Predicting Fame and Fortune: PageRank or Indegree?

Хотя, возможно, что Ромип в тепершнем виде не самая хорошая идея, потому как там коллекция маленькая там с PR не очень развернешься.

Ok, тогда это хорошая тема для Ромимпа. Информация должна быть открыта. (с) О. Бартунов... :-)

Kryukov:
Зря Вы так :) Вопрос интересный и вовсе не праздный. Мне он интересен со многих точек зрения, в том числе и с той, как об этом думают люди, находящиеся на некоторой дистанции от создания хьюдж енжин. Что касается поисковиков - так это мое хобби, к тому же, это замечательное место для экспериментов (правда не очень дешевое). Так что, если кому не жалко - идеи в студию. Возможно я поделюсь опробованными моделями :)

Ага, тот самый Крюков. :-) И спрашивает нас как учитывать PR при оценке релевантности. Дима, скажите, а не хватит ли Рунету поисковых машин? Яндекс, Рамблер, Апорт, Гугль, Яху, Мсн, еще же ведь есть как минимум пара стартапов Нигма, Вебальта.

Это для людей с дебаггером под мышкой, пардон за каламбур.

Zute:
Можно ещё посмотреть DataparkSearch, http://www.dataparksearch.org/
Правда со стабильностью у него: кто жалуется, а у кого и нормально работает, как повезёт :)
Basch:
itman,
спасибо огромное! То что надо. Ушел гуглить..
А если у вас уже есть какие-то тексты, того же Гарсии, буду крайне признателен, если скинете что-нибудь на мыло basch @ yandex.ru.
В любом случае, спасибо!

так обратите внимание, они почти все в доступном виде есть (в гугльскаляре статьи группируются, в группе, если статья популярна бывают "бесплатные" pdf)

http://scholar.google.com/scholar?num=100&hl=en&lr=&q=index+freshness+crawl&btnG=Search

В частности,

Synchronizing a Database to Improve Freshness

J Cho, H Garcia-Molina кажется агитирует за последовательный обоход индекса, впрочем, я могу ошибаться, уже давно читал. В любом случае Гарсия-Малина крутой классик, worth reading.

1) В HTTP запросе есть такой параметр if-modified-since или что-то около-того

2) По каждой из страниц можно считать как часто она меняется и в зависимости от этого увеличивать или уменьшать частоту выборки данной страницы. Будем примерно болтаться вокруг среднего времени обновления этой страницы. Бонус: необновляемые страницы будут обходиться все реже и реже. Например, мы выбирем страничку каждую неделю и почти всегда она за это время успевает измениться. Мы по некоторому эмпирическому правилу уменьшаем время обхода, скажем до 4 дней. Если при 4х дневных обходах она успевает измениться в большинстве случае, то еще сокращаем время. Грубо говоря, увеличивая и уменьшая частоту обхода можно примерно оценить время модификации страницы.

3) При обходе одного сайта (и кажись в RFC это есть) нужно делать задержки, иначе сайту может быть плохо. ИМХО не все поисковики так делают, а зря

PS:

4) Да и CRC надо дополнительно использовать для страниц, которым в качестве даты изменения возвращается дата выдачи страницы.

a1333:
Что вы подразумеваете под модулем ремонта и осмотра?

Ну если хорошую иномарку на осмотр подвески можно раз в годик тащить пр умеренной 10-20 тысяч в год езде, то с нашей машинкой заглядывать под копот лучше почаще. иногда, скажем, какой-то приборчик совершенно очевидно на грани износа и сервисмен это вполне может определить. Опять-таки, не для кого не секрет, что колодки на российских машинах ходят меньше, даже импортные. если на тазе 50 тысяч проехал, то это из разряда рекордов, а на иномарке нормально. ГРМ тот же осматривать на предмет износа, натяжение ремня генератора и напряжение генератора мерять :-)

Всего: 444