бот яндекса понимает gzip или deflate?

123
T.R.O.N
На сайте с 18.05.2004
Offline
314
#11
OZE:
вот и озадачился

не нуна было лезть за океан.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
T.R.O.N
На сайте с 18.05.2004
Offline
314
#12
Rimlyanin:
На данный момент бот яши не понимает gzip и просит в хедерах не сжатый контент, если на его запрос несжатого контента отдать ему зипованный то не удивляйтесь потом выпадению из серпа...

Вы говорите все врено. Запрос конечно должен анализироваться. Если хидер указывает на непонимание, - значит нужно так и делать

mymind
На сайте с 07.09.2004
Offline
188
#13
Rimlyanin:
На данный момент бот яши не понимает gzip и просит в хедерах не сжатый контент, если на его запрос несжатого контента отдать ему зипованный то не удивляйтесь потом выпадению из серпа...

Сомневаюсь. На форуме стоит включенный GZIP. Страницы нормально индексяца, и сайт не выпал из серпа. По запросам находится. По крайне мере не наблюдаю ничего такого. Хотя лучше спросить на форуме самого яндекса об этом.

Dwarf
На сайте с 06.10.2004
Offline
60
#14
mymind:
Сомневаюсь. На форуме стоит включенный GZIP. Страницы нормально индексяца, и сайт не выпал из серпа. По запросам находится. По крайне мере не наблюдаю ничего такого. Хотя лучше спросить на форуме самого яндекса об этом.

Не сомневайтесь :) Нормально настроенный сервер отдает контент в gzip только тогда, когда в запросе бродилки или бота присутствует хедер Accept-Encoding: gzip. Если хедера нет, контент отдается не пожатый. Поэтому если боту яндеска отдавать пожатый контент, то тут TRON все верно говорит.

IIS при включенной HTTP-компрессии поступает также.

Деревянные окна (http://www.wood-win.ru/)
V
На сайте с 22.02.2007
Offline
150
#15
Dwarf:
IIS при включенной HTTP-компрессии поступает также.

mymind, Кто ходит в гости по утрам Кто тупо лезет в мануал, тот поступает мудро! Парам-пам-пам, парам-пам-пам! Пух! :)

Hypertext Transfer Protocol -- HTTP/1.1

HTTP 1.1 - Русский перевод спецификации RFC 2068.

Dwarf
На сайте с 06.10.2004
Offline
60
#16
Vimsite:
mymind, Кто ходит в гости по утрам Кто тупо лезет в мануал, тот поступает мудро! Парам-пам-пам, парам-пам-пам! Пух! :)

Мой любимый RFC :)


telnet forum.searchengines.ru:80
GET /showthread.php?p=2143671 HTTP/1.1
Host: forum.searchengines.ru
Accept-Encoding: gzip,deflate

HTTP/1.1 200 OK
Date: Fri, 08 Jun 2007 10:16:21 GMT
Server: Apache/1.3.34 (Unix) mod_fastcgi/2.4.2 mod_gzip/1.3.26.1a PHP/5.2.0 with Suhosin-Patch
X-Powered-By: PHP/5.2.0
Set-Cookie: bblastvisit=1181297782; expires=Sat, 07-Jun-2008 10:16:22 GMT; path=/
Set-Cookie: bblastactivity=0; expires=Sat, 07-Jun-2008 10:16:22 GMT; path=/
Cache-Control: private
Pragma: private
Content-Type: text/html; charset=windows-1251
Content-Encoding: gzip
Content-Length: 12979

‹ &#236;<ks&#219;Vv&#376;&#229;x"&#65533;•&#248; e)¶(&#208;K&#202;


telnet forum.searchengines.ru:80
GET /showthread.php?p=2143671 HTTP/1.1
Host: forum.searchengines.ru

HTTP/1.1 200 OK
Date: Fri, 08 Jun 2007 10:17:11 GMT
Server: Apache/1.3.34 (Unix) mod_fastcgi/2.4.2 mod_gzip/1.3.26.1a PHP/5.2.0 with Suhosin-Patch
X-Powered-By: PHP/5.2.0
Set-Cookie: bblastvisit=1181297833; expires=Sat, 07-Jun-2008 10:17:13 GMT; path=/
Set-Cookie: bblastactivity=0; expires=Sat, 07-Jun-2008 10:17:13 GMT; path=/
Cache-Control: private
Pragma: private
Transfer-Encoding: chunked
Content-Type: text/html; charset=windows-1251

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html dir="ltr" lang="ru">
<head>
Rimlyanin
На сайте с 22.02.2006
Offline
200
#17

Вот в том-то и прикол, что бот яндекса не просит пожатый контент, он не понимает его, он просит обычный не пожатый контент, а если сервер не обращает внимания на заголовки и все рвано отдает пожатый, то могут быть проблемы...

OZE
На сайте с 21.05.2006
Offline
152
OZE
#18
Rimlyanin:
Вот в том-то и прикол, что бот яндекса не просит пожатый контент, он не понимает его, он просит обычный не пожатый контент, а если сервер не обращает внимания на заголовки и все рвано отдает пожатый, то могут быть проблемы...

это уже называется криво настроенный сервер:)

как я понял нужно действовать так:

1. если в заголовке запроса есть Accept-Encoding: gzip (или deflate, или все вместе через запятую), то отдаем сжатое тело http-ответа в соответствующем алгоритме сжатия

2. если в заголовке запроса нет Accept-Encoding или там неизвестный алгоритм, то выдаем несжатое тело http-ответа

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#19

А в чем вопрос, собственно, и что вы собрались настраивать?

Сообщаю великую тайну - если в стандартно установленном Апаче установить mod_gzip (для 1.3.ХХ) или mod_deflate (2.Х) и включить эти модули, то вебсервер начнет клиентам, принимающим сжатый контент (т.е. говорящим Accept-Encoding: gzip), отдавать сжатый контент. И все - ничего больше руками трогать не надо, эти модули работают абсолютно прозрачно для пользовательских скриптов.

И мне действительно интересно, что это сайт, индексация которого в течение месяца может сожрать хотя бы 100 гигабайт. Индексация этого форума обходится в среднем на уровне 7-10 гигабайт на поисковик - причем это аппетит робота Яндекс.Директа, который несколько избыточен, скажем так.

OZE
На сайте с 21.05.2006
Offline
152
OZE
#20
Gray:
А в чем вопрос, собственно, и что вы собрались настраивать?

все уже готово,

вопрос был в том, понимают ли боты сжатый контент. Не хотел тратить время на написание скрипта для отлавливания бота и поэтому спросил здесь.

Gray:
И мне действительно интересно, что это сайт, индексация которого в течение месяца может сожрать хотя бы 100 гигабайт.

встречный вопрос: а в DirectAdmin статистика трафика по пользователям корректная?

мне самому интересно, откуда такие цифры:)

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий