Индексирование в яндексе

12
NN
На сайте с 14.06.2005
Offline
15
1199

Доброго времени суток.

Вопрос, раньше яндекс индексировал все нормально, теперь вот в индексе всего семь восемь страниц (в рамблере больше шести тысяч). И вот собственно в чем вопрос.

В логах сервера все поисковые сервера приходят и нормально забирают страницы например:

81.19.66.6 - - [14/Jun/2005:00:33:04 +0400] "GET /coctail/champagne.html HTTP/1.0" 200 31975 "-" "StackRambler/2.0

(MSIE incompatible)"

А вот строка Яндекс робота:

213.180.216.45 - - [10/Jun/2005:17:48:21 +0400] "GET /catalog/champagne.html HTTP/1.1" 406 31975 "-"

"Yandex/1.01.001 (compatible; Win16; I)"

Объясните почему ВСЕМ мой сервер выдает код "ошибки" 200, а яндексу 406? Каким образом надо запросить информацию с сайта чтобы получить ошибку "406 Not Acceptable".

Информация для незнающих по этой ошибке можно посмотреть тут (http://www.help.php-host.ru/error406.php)

З.Ы. для ясности могу выслать лог, только скажите куда.

C
На сайте с 19.09.2001
Offline
120
#1

Робот Яндекса очень разборчив в форматах данных, которые отправляет ему сервер.

Ошибка 406 возникает в том случае, когда робот запрашивает данные в формате html, а сервер считает, что в этом формате он данные отдать не может и возвращает 406.

Эта проблема на форуме уже обсуждалась, правда достаточно давно.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

А почему вы не можете отдать при запросе GET / HTTP/1.1 требуемый контент?

NN
На сайте с 14.06.2005
Offline
15
#3
Как писал Gray
А почему вы не можете отдать при запросе GET / HTTP/1.1 требуемый контент?

В каком смысле "не могу отдать при запросе требуемый контент"? Наверху две выписки из лога. Идеинтичные ессли не считать того кто запрашивал. В Первом случае все Ок, в случае с Яндексом НЕ Ок.

NN
На сайте с 14.06.2005
Offline
15
#4

Кстати вот РЕАЛЬНЫЙ заголовок сайта

0 => HTTP/1.1 200 OK

1 => Date: Tue, 14 Jun 2005 17:41:56 GMT

2 => Server: Apache/1.3.33 (Unix) mod_ssl/2.8.22 OpenSSL/0.9.7d PHP/4.3.11 mod_perl/1.29 FrontPage/5.0.2.2510

3 => X-Powered-By: PHP/4.3.11

4 => Expires: Thu, 19 Nov 1981 08:52:00 GMT

5 => Last-Modified: Tue, 14 Jun 2005 17:41:56 GMT

6 => Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0

7 => Pragma: no-cache

8 => Set-Cookie: PHPSESSID=c8103e115bc73d7cf7c9e4a27fd50235; path=/

9 => Connection: close

10 => Content-Type: text/html; charset=windows-1251

Так где собака?

C
На сайте с 19.09.2001
Offline
120
#5
Так где собака?

Собака в запросе, а не в ответе сервера.

Если коротко, то основной индексатор Яндекса запрашивает данные так:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1,
application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

А прочие в основном запрашивают "все подряд"

Accept: */*

Прочим сервер отдает 200, а Яндексу -- 406, потому что не уверен, что скрипт отдает данные в формате HTML.

Чтобы решить проблему Вам надо убедить сервер, Content-Type: text/html; charset=windows-1251

NN
На сайте с 14.06.2005
Offline
15
#6

Нашел еще одну весч:

Это мой сервер (информация из PHPINFO):

HTTP Response Headers

Keep-Alive timeout=5, max=400

Connection Keep-Alive

Transfer-Encoding chunked

Content-Type text/html; charset=windows-1251

А это сервер который ТОЧНО индексируется Я (информация из PHPINFO):

HTTP Response Headers

X-Powered-By PHP/4.3.11

Keep-Alive timeout=5, max=500

Connection Keep-Alive

Transfer-Encoding chunked

Content-Type text/html

Различие в строке X-Powered-By.

Или я не ту сторону рою?

Насчет того что:

Как писал Cherny
Чтобы решить проблему Вам надо убедить сервер, Content-Type: text/html; charset=windows-1251

Дык в 10-ой строке заголовков которые выдает мой сайт есть строчка об этом...

C
На сайте с 19.09.2001
Offline
120
#7
Различие в строке X-Powered-By.
Или я не ту сторону рою?

Не в ту

Дык в 10-ой строке заголовков которые выдает мой сайт есть строчка об этом...

Я же написал, что вопрос не в ответе сервера, а в запросе клиента.

NN
На сайте с 14.06.2005
Offline
15
#8
Как писал Cherny
Чтобы решить проблему Вам надо убедить сервер, Content-Type: text/html; charset=windows-1251

Ок. Что нужно сделать чтобы "убедить сервер"? Ну хотя бы в общих чертах... Я просто не совсем понимаю о чем речь...

NN
На сайте с 14.06.2005
Offline
15
#9

Кстати вот еще строка из лога:

213.180.216.253 - - [15/Jun/2005:14:48:47 +0400] "GET /catalog/champagne.html HTTP/1.1" 200 31975 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Что на это скажите?

C
На сайте с 19.09.2001
Offline
120
#10
Что на это скажите?

А что мы можем сказать?! :)

Это запрос не от основного индексатора, HTTP-запросы основного индексаторы и робота D несколько отличаются.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий