Индексация и дата

D
На сайте с 22.01.2004
Offline
6
547

Как будет происходить переиндексация сайта, если документы сайта постоянно будут выдавать дату последнего обновления - текущую (например, через ПХП в качестве заголовка header("Last-Modified: " . gmdate("D, d M Y H:i:s") . " GMT");)?

Ведь паук жрет ограниченное кол-во документов за раз, а так как те документы, которые им уже сожраны за последнюю индексацию, вроде как обновлены, то надо по ним пробежаться вновь..

Не будет ли ситуации, когда паук каждый заход индексирует одни и те же 500 документов, не продвигаясь глубже?

Ищите, да обрящете
spark
На сайте с 24.01.2001
Offline
130
#1

Вполне может быть.

D
На сайте с 23.05.2002
Offline
173
#2

У меня на одном сайте, где last-modified равен текущей

дате, ситуация следующая:

Робот последовательно ходит по всем известным ему

страницам (~4000) сайта, каждый раз забирая 500 штук.

Когда он находит ссылки на новые страницы, то ставит

эти страницы в конец очереди.

Т.е. поведение робота довольно стандартное.

C
На сайте с 19.09.2001
Offline
120
#3

Drey, поведение робота зависит не от даты, которую выдает скрипт в заголовке Last-Modified, а от правильной обработки скриптом/сервером даты If-Modified-Since в заголовке запроса, попробуйте воспользоваться поиском по форуму, тут эта тема неоднократно обсуждалась + приводились примеры решения на PHP.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий