Помогите плз: Slurp не дочитывает страницу

12
S
На сайте с 13.08.2004
Offline
0
1442

Господа, кто-нибудь встречал такое?

Slurp приходит на сайт раз в два дня, читает robots.txt (0 bytes), потом берется за index.html - и на нем помирает.

В логах написано, что размер прочитанного index.html - около 6Kb

На самом деле - он порядка 16.

Пытался сэмулировать Slurp telnet-ом (GET /, User-Agent: ...) - получаю все нормально.

Смотрел, может что-то странное в HTML на том месте, где Slurp ломается - ничего не нашел.

С сервером тоже проблем не вижу. На нем есть куча других сайтов - и там все в порядке.

Что бы еще проверить, не посоветуете?

С благодарностью

-- Studiosi

[Удален]
#1
Что бы еще проверить, не посоветуете?

Наличие и включенность mod_gzip. Slurp наверно его поддерживает.

S
На сайте с 13.08.2004
Offline
0
#2

Просто, как все гениальное! Конечно, gzip. ☝

Меня смутило то что, что протокол в логе показан как HTTP/1.0

Получается, что Slurp пишет GET ... HTTP/1.0, но при этом дает Host: header, и еще к тому же accept: gzip...

Уфф - стало легче, с одной стороны. По крайней мере, у меня нет Slurpоубийственного HTML.

Остается вопрос, почему тогда Slurp не продолжает читать другие страницы, следуя линкам. У меня есть несколько таких сайтов: Slurp приходит, читает robots, потом берет одну или несколько страниц - и уходит. И так каждые два дня. Причем эти несколько страниц всегда одни и те же.

Возможно, он читает то, на что есть ссылки с других сайтов... Странно. Я бы на его месте вел себя по-другому :D

Еще раз ОГРОМНОЕ СПАСИБО, Interitus!!!

-- Studiosi

[Удален]
#3
Получается, что Slurp пишет GET ... HTTP/1.0, но при этом дает Host: header, и еще к тому же accept: gzip...

Там в GET можно после 1. написать что угодно (хоть GET /document HTTP/1.2389dajsdk), сервер документ отдаст правильно. Googlebot тоже раньше 1.0 писал, хотя всегда разумеется использовал стандарт 1.1.

Остается вопрос, почему тогда Slurp не продолжает читать другие страницы, следуя линкам. У меня есть несколько таких сайтов: Slurp приходит, читает robots, потом берет одну или несколько страниц - и уходит. И так каждые два дня. Причем эти несколько страниц всегда одни и те же.

Ну это распространенная проблема, посоветовать можно только работать над ссылками на сайт извне, и ждать.

S
На сайте с 13.08.2004
Offline
0
#4
Там в GET можно после 1. написать что угодно (хоть GET /document HTTP/1.2389dajsdk), сервер документ отдаст правильно.

Мне казалось, что если писать 1.1 - то сервер отдаст chunked.

А если 1.0 - то обычным способом. Но это - так, к Slurp отношения не имеет...

Ну это распространенная проблема, посоветовать можно только работать над ссылками на сайт извне, и ждать.

Либо - сайт "забанен". Или в этом случае Slurp вообще не приходит?

Ссылок, кстати, предостаточно. И сам сайт в Yahoo каталоге (оплачен)...

Еще раз - спасибо.

[Удален]
#5
Мне казалось, что если писать 1.1 - то сервер отдаст chunked.
А если 1.0 - то обычным способом. Но это - так, к Slurp отношения не имеет...

В общем похоже от настроек и сервера зависит. Я попробовал на одном апаче - с 1.0 и 1.1 выдает одинаково, байт в байт.

Либо - сайт "забанен". Или в этом случае Slurp вообще не приходит?

А сайт давно существует? Могут быть проблемы из-за давнишних отношений с Inktomi, особенно если им когда-то платили деньги за индексацию.

Главная страница, которую робот берет, в индексе появляется? Ее кеш в индексе доступен?

S
На сайте с 13.08.2004
Offline
0
#6
А сайт давно существует? Могут быть проблемы из-за давнишних отношений с Inktomi, особенно если им когда-то платили деньги за индексацию.
Главная страница, которую робот берет, в индексе появляется? Ее кеш в индексе доступен?

Сайту 4 года. Платили Inktomi года полтора назад. Именно за эту главную страницу. В индексе она не появляется. Запрос типа site:... ничего не находит.

Вообще-то похоже что дело в прошлых отношениях с Inktomi. Все сайты (по-памяти), за которые я когда-то платил в positiontech - действительно отсутствуют.

Есть лекарство?

Прогнуться под Яху или она прогнется под нас? © А. Макаревич

Еще раз спасибо за ответы. Куда высылать 🍻 ?

[Удален]
#7
Есть лекарство?

Ну можно вступить в долгую и безнадежную переписку с ними... или звонить (если есть откуда по местному тарифу, потому что висеть на линии буквально часами можно).

Если позволяют обстоятельства - то имеет смысл сделать специально для них сайты с нуля.

Еще раз спасибо за ответы. Куда высылать 🍻 ?

Я 🍻 не пью. :)

S
На сайте с 13.08.2004
Offline
0
#8
Я 🍻 не пью. :)

Правильно. Remi Martin вкуснее и полезнее...

ОК - все со Slurp-ом ясно. Звонить мы им не будем. Закроем тему и пойдем "поднимать целину". Гуглу-гуглово, а Слурпу-слурпово...

С-П-А-С-И-Б-О и до встречи!

M
На сайте с 24.06.2004
Offline
24
#9

а кто такой SLURP???

[Удален]
#10

Папа, а де МОРЕ? 😂

Slurp - робот поисковой системы Yahoo (ранее - робот Inktomi).

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий