Индексатор Яндекса и gzip сжатие страниц

12
bonzaza
На сайте с 10.06.2006
Offline
82
#11
stealthy:

Судя по логам, робот (H) запрашивает данные по протоколу HTTP/1.1?

посмотрел на разгоревшийся флейм по поводу кеширования, тему топикстартера и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?

ИМХО зеркальщик обходит сайт и ищет ссылки для склевания

а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)

Если не мы, то кто?
T.R.O.N
На сайте с 18.05.2004
Offline
314
#12
bonzaza:
посмотрел на разгоревшийся флейм по поводу кеширования и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?

Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.

На своей шкуре убедился, когда софтинка была не очень отлажена, как яшин робот сервак вешал.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
bonzaza
На сайте с 10.06.2006
Offline
82
#13
T.R.O.N:
Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.

не спорю никоим разом - только в логах индексатор отмечается как (I) а не (H), как написал топикстартер

Яндекс(с) - Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот

по моим логам он забирает страницу по разу (как правило)

по поводу того, как работает зеркальщик - честно даже понятия не имею, если кто подскажет, где почитать - то буду признателен

но исходя из сути клейки зеркал контент он точно должен обрабатывать:

Яндекс(с) - измените код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.

по этому и сделал свое предположение, почему страница забирается дважды

stealthy
На сайте с 15.06.2006
Offline
69
#14
bonzaza:
ИМХО зеркальщик обходит сайт и ищет ссылки для склевания
а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)

Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле. А зачем ему убеждаться в том, что страница отдается и так и так - это интересно.

Сейчас посмотрел логи более тщательно:

- блоггерный индексатор (короче чтобы не путать людей - вот этот: YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot)) ест страницы периодически в сжатом виде, периодически не в сжатом.

- I бот - индексатор - тоже ест и так и так, но последовательного забора как у зеркальщика - действительно нет.

Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.
bonzaza
На сайте с 10.06.2006
Offline
82
#15
stealthy:
Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле.

:)

stealthy:

Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.

если поддерживает, то конечно отдавать надо

Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается. Дальнейшие действия будут зависеть от самомго робота. Но думаю что критичного при отсутсвии gzip сжатия ничего не будет.

Сжатие это плюс для сокращения трафика в сети, но минус для нагруженного сервера.

stealthy
На сайте с 15.06.2006
Offline
69
#16
bonzaza:
Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается.

Немного не так. Когда приходит запрос на сервер там пишется в заголовке Accept-Encoding, что типа я клиент умный, gzip понимать умею. Сервер в зависимости от своих возможностей может отдать gzip (пометив заголовком Content-Encoding что контент пожатый), а может отдать и просто plain/html.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий