Индексатор Яндекса и gzip сжатие страниц

stealthy · 2006-11-21T23:58:00.0000000Z

Вопрос в том, корректно ли отдавать роботам Яндекса контент, сжатый через gzip или deflate? Судя по логам, робот (H) запрашивает данные по протоколу HTTP/1.1 указывая возможность принятия gzip/deflate данных. Но после получения сжатых данных он зачем-то перезапрашивает тот же самый URL по тому же протоколу но уже без указания возможности приема сжатых данных. Непонятно, нужно ли сразу отдавать ему несжатые данные, экономя трафик сервера или ему зачем то нужны обе версии (для сравнения, например)?

82

bonzaza

22 ноября 2006, 09:52

#11

stealthy:

Судя по логам, робот (H) запрашивает данные по протоколу HTTP/1.1?

посмотрел на разгоревшийся флейм по поводу кеширования, тему топикстартера и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?

ИМХО зеркальщик обходит сайт и ищет ссылки для склевания

а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)

Если не мы, то кто?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

314

T.R.O.N

22 ноября 2006, 10:00

#12

bonzaza:
посмотрел на разгоревшийся флейм по поводу кеширования и хотелось бы задать уточняющий вопрос - а при чем тут индексатор ?

Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.

На своей шкуре убедился, когда софтинка была не очень отлажена, как яшин робот сервак вешал.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

82

bonzaza

22 ноября 2006, 10:09

#13

T.R.O.N:
Все просто. В отличии от юзера, индексатор за короткое время хавает большое количество страниц. Нагрузку он создает не хилую на сервак. Кеши, сжатие, динамика и т.д. должны на это нормально реагировать.

не спорю никоим разом - только в логах индексатор отмечается как (I) а не (H), как написал топикстартер

Яндекс(с) - Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот

по моим логам он забирает страницу по разу (как правило)

по поводу того, как работает зеркальщик - честно даже понятия не имею, если кто подскажет, где почитать - то буду признателен

но исходя из сути клейки зеркал контент он точно должен обрабатывать:

Яндекс(с) - измените код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.

по этому и сделал свое предположение, почему страница забирается дважды

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

69

stealthy

22 ноября 2006, 10:27

#14

bonzaza:
ИМХО зеркальщик обходит сайт и ищет ссылки для склевания
а запрашивает повторно, чтобы точно быть уверенным, что страница отдается и так и так (не все же gzip поддерживают)

Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле. А зачем ему убеждаться в том, что страница отдается и так и так - это интересно.

Сейчас посмотрел логи более тщательно:

- блоггерный индексатор (короче чтобы не путать людей - вот этот: YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot)) ест страницы периодически в сжатом виде, периодически не в сжатом.

- I бот - индексатор - тоже ест и так и так, но последовательного забора как у зеркальщика - действительно нет.

Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

82

bonzaza

22 ноября 2006, 10:40

#15

stealthy:
Про H - да, зеркальщик, но по мне они все краулеры, собственно я употребил "индексатор" в этом смысле.

:)

stealthy:

Разработчики говорят что если боты просят gzip - то так и нужно им gzip отдавать.

если поддерживает, то конечно отдавать надо

Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается. Дальнейшие действия будут зависеть от самомго робота. Но думаю что критичного при отсутсвии gzip сжатия ничего не будет.

Сжатие это плюс для сокращения трафика в сети, но минус для нагруженного сервера.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

69

stealthy

22 ноября 2006, 11:40

#16

bonzaza:
Но насколько я знаю при отсутсвии сжатия сервер уведомит робота соответсвующим заголовком (а точнее строчкой в ответе заголовка) о том, что сжатие не поддерживается.

Немного не так. Когда приходит запрос на сервер там пишется в заголовке Accept-Encoding, что типа я клиент умный, gzip понимать умею. Сервер в зависимости от своих возможностей может отдать gzip (пометив заголовком Content-Encoding что контент пожатый), а может отдать и просто plain/html.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Google: E-E-A-T не является фактором ранжирования

Зачем быть уникальным в мире, где все можно скопировать