gzip, и выпадение 90% сайтов из яндекса.

trojka
На сайте с 27.02.2007
Offline
73
1660

Гдето месяц назад, решил поэксперементировать с выдачей HTML заархивированных GZIPом. Все настроил, работало быстро, хидеры были правильные - отдавался правильный content-lenght. В результате экспериментов, 29.03 из индекса пропало 90% сайтов (30 штук)! И до сих пор не появилось ни одной страницы :( Сейчас всякие эксперименты прекращены, гзип убран, хидеры сервер отдает такие:

(Status-Line):HTTP/1.1 200 OK

Server:nginx/0.5.17
Date:Mon, 09 Apr 2007 21:02:24 GMT
Content-Type:text/html; charset=windows-1251
Transfer-Encoding:chunked
Connection:keep-alive
Expires:Mon, 09 Apr 2007 21:02:24 GMT
Last-Modified:Mon, 09 Apr 2007 21:02:24 GMT

Выпали все сайты которые использовали GZIP, кроме одного!

Банить сайты вроде бы незачто, ссылки не продаю, помек нету. Так-же добавлял сайты через аддурл - все ОК, никаких сообщений о запрете индексации.

Скажите, были ли такие случаи?

Есть ли надежда на появление страниц в индексе? Вот очередной ап, а в серпе опять нету моих сайтов :(((

подПись - всем подПисям подПись
ironic
На сайте с 09.09.2003
Offline
163
#1

А вы gzip'или страницы для всех и вся подряд!?

Или все-таки смотрели HTTP_ACCEPT_ENCODING?

trojka
На сайте с 27.02.2007
Offline
73
#2

смотрели конечно. Для тех кто умеет отдавали в гзипе, для других обычный штмл.

S
На сайте с 28.10.2005
Offline
314
#3

Покажите заголовки для загзипованых страниц

Что отдает сервер на запрос HEAD?

P.S.: Не заметил проблем с гзип на своих сайтах

di_max
На сайте с 27.12.2006
Offline
262
#4

С 2003 - все сайты выдают в GZIP-е...

С роботами, и Яндекс-ом в первую очередь, проблем нет.

Скинте посмотреть 1 урл в личку.

// Все наши проблемы от нашего не знания...
trojka
На сайте с 27.02.2007
Offline
73
#5
semenov:
Покажите заголовки для загзипованых страниц
Что отдает сервер на запрос HEAD?

P.S.: Не заметил проблем с гзип на своих сайтах

Сейчас, к сожалению, уже не смогу восстановить те хидеры которые были при гзипе. это было на другом хостинге и сейчас все сайты без гзипа.

Для примера вот один из многих выпавших сайтов http://aviso-online.kiev.ua

Посмотрите, может что-то найдете не правильное, плыз :)

S
На сайте с 28.10.2005
Offline
314
#6
trojka:
Для примера вот один из многих выпавших сайтов http://aviso-online.kiev.ua
Посмотрите, может что-то найдете не правильное, плыз :)

Дак это ж каталожег, наверняка прибанили бедолагу

А остальные сайты тоже типа этого? Тогда гзип наверняка не причем))

BigBrother
На сайте с 16.06.2006
Offline
96
#7

gzip яндекс не понимает, о чем наш робот прямо говорит в запросе.

Могли накосячить с длиной в случае, если отдаете непакованный контент.

А вот по сайту в топике - это к Платону, а не к gzip.

So many kings, but few jokers!
trojka
На сайте с 27.02.2007
Offline
73
#8

Тоесть такая проблема только у меня... Скорее всего это просто совпадение.

Sla_Dom
На сайте с 18.02.2006
Offline
252
#9

несколько сайтов на gzip

Все без укоризненно.

stealthy
На сайте с 15.06.2006
Offline
69
#10
BigBrother:
gzip яндекс не понимает, о чем наш робот прямо говорит в запросе.
Могли накосячить с длиной в случае, если отдаете непакованный контент.
А вот по сайту в топике - это к Платону, а не к gzip.

Если мне не изменяет память, кто-то из разработчиков робота (возможно даже вы) с полгода назад говорили что робот умеет принимать gzip контент и если он просит - нужно ему отдавать. Я тогда еще задавал вопрос про сдвоенные запросы - сначала обычный был запрос, потом запрос на сжатый контент.

ТС, в общем такая проблема имеет место быть. У меня та же ситуация с точностью до - 30 сайтов вылетали пока отдавался сжатый контент. От греха сжатие специально для Яндекса отключили. Результаты пока неясны, поскольку в выдаче кое-что вылетевшее пока не появилось ("эксперимент" проведен недавно, недели 3 назад), а в списке проиндексированных страниц пока показывается вообще пурга какая-то.

Дополнительно могу только сказать, что согласно RFC (недавно все перелопачивал опять) если заголовок ACCEPT_ENCODING от клиента приходит пустой, то сжимать нельзя. Если заголовка нет вовсе - на усмотрение сервера, но считается что клиент сможет принять сжатый контент.

В связи с этим вопрос к BigBrother - что имеется в виду под "робот говорит открытым текстом"? Я ничего в запросах яндекса, что говорило бы о непонимании им gzip не нашел.

Вообще, меня сильно разочаровывает зависимость робота от разных заголовков. Все до единого остальные поисковики приспосабливаются к сайтам, а тут все наоборот - нужно приспосабливать сайт к яндексу.

Текущий перечень проблем, при которых Яндексом могут не индексироваться сайты (собрано за длительный срок, возможно что-то уже изменилось):

- выдача HTTP/1.0 в статусе ответа

- выдача неверного Content-length, иногда наблюдались проблемы индексации при отсутствующем Content-length

- переносы строк в заголовках вида #10, а не #10#13

- отсутствие заголовка Date

- сжатый gzip-ом контент (при этом робот аддурелки заявляет что не указана дата документа)

Самая большая проблема, что робот-индексатор похоже до сих пор модифицируется, и это значит что новые вопросы по индексации могут возникать в дальнейшем.

Также по сообщениям некоторых наших клиентов в индекс не принимают RSS ленты новостей, которые перед заголовком <?xml имеют лишние пробелы (не запрещено стандартом вроде бы, IE показывает нормально, FF и Опера - дают ошибку).

Еще есть одно непонятное свойство - сайты на MS IIS индексируются иногда значительно медленнее чем на Unix сервере (Apache). С чем связано неясно, сравнение идет двух пачек примерно одинаковых по сложности и популярности корпоративных сайтов по 20-30 штук.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий