Индексация ресурса

12
Sonja
На сайте с 05.06.2003
Offline
170
628

Запрашивают ли индексирующие роботы HTTP заголовок "Expires"?

С уважением, Ольга Лебедева
C
На сайте с 19.09.2001
Offline
120
#1

В смысле запрашивают?

Этот заголовок или отдается, или нет, как и Last-modified, поэтому его робот получит, если сервер его отдаст. Другое дело, что роботы могут его просто не учитывать.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
Sonja
На сайте с 05.06.2003
Offline
170
#2

Cherny, спасибо.

А есть знание :) о том учитывают его (заголовок Expires) поисковики или нет и как может повлиять простроченная дата. Есть ли какие-нибудь публикации на эту тему?

C
На сайте с 19.09.2001
Offline
120
#3

Да никак Expires не влияет, это больше для кешей нужно. Поисковики даже Last-Modified не очень доверяют.

andrej-ilin
На сайте с 28.03.2005
Offline
42
#4

Может повлиять, если дата не просрочена. Робот, запросив и проанализировав заголовки, может не переиндексировать страницу, срок действия которой еще не истек, а перейти к следующей.

Таким образом можно повлиять на алгоритм переиндексации большого сайта и более рационально использовать квоту.

Но скорее всего, лучше не заморочиваться с этим.

andrej-ilin@yandex.ru
Sonja
На сайте с 05.06.2003
Offline
170
#5

Заметила, что подопечный ресурс выдает этот Expires аж с 1970 годом. Cherny, спасибо, успокоили :).

Sonja
На сайте с 05.06.2003
Offline
170
#6
Может повлиять, если дата не просроченна. Робот, запросив и проанализировав заголовки, может не переиндексировать страницу, срок действия которой еще не истек, а перейти к следующей.
Таким образом можно повлиять на алгоритм переиндексации большого сайта и более рационально использовать квоту.

andrej-ilin, спасибо! Пригодится :)

А за чьими роботами было замечено такое поведение?

C
На сайте с 19.09.2001
Offline
120
#7

Хм.

andrej-ilin, позвольте с Вами не согласиться. Роботы при индексации сайта делают запрос GET, т.е. сразу получают и заголовки и тело страницы, анализируется сразу и то, и другое.

Управлять переиндексацией сайта можно с помощью анализа запросов, в которых есть заголовок If-Modified-Since с датой. В этом случае сервер может вернуть клиенту 304 Not Modified без тела документа, если документ не изменялся или 200 Ok вместе с телом документа, если изменялся. В этом случае, при неизменной квоте количества документов с одного сайта, роботы будут индексировать только те страницы, которые изменились. Большинство роботов запрашивают документы с заголовком If-Modified-Since, я даже некоторое время назад собирал статистику.

B
На сайте с 07.10.2004
Offline
114
#8

Sonja, да никак он не учитывает.

Бородин Антон. 411-22-05, icq 199228260, bomass [at] ya.ru Домен .ru за 6,3$ (http://webst.ru/?id=146)
[Удален]
#9

Cherny, а не осталось ли информации вот какой: роботы, которые Connection: Keep-alive слали - потом действительно не рвали tcp-соединение?

C
На сайте с 19.09.2001
Offline
120
#10

Interitus, не знаю :(

Я только заголовки запросов "складировал".

А как можно проверить соединение, что смотреть надо?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий