Помогите плз: Slurp не дочитывает страницу

S

0

Studiosi

14 августа 2004, 04:27

1442

Господа, кто-нибудь встречал такое?

Slurp приходит на сайт раз в два дня, читает robots.txt (0 bytes), потом берется за index.html - и на нем помирает.

В логах написано, что размер прочитанного index.html - около 6Kb

На самом деле - он порядка 16.

Пытался сэмулировать Slurp telnet-ом (GET /, User-Agent: ...) - получаю все нормально.

Смотрел, может что-то странное в HTML на том месте, где Slurp ломается - ничего не нашел.

С сервером тоже проблем не вижу. На нем есть куча других сайтов - и там все в порядке.

Что бы еще проверить, не посоветуете?

С благодарностью

-- Studiosi

[Удален]

14 августа 2004, 07:29

#1

Что бы еще проверить, не посоветуете?

Наличие и включенность mod_gzip. Slurp наверно его поддерживает.

S

0

Studiosi

14 августа 2004, 13:45

#2

Просто, как все гениальное! Конечно, gzip. ☝

Меня смутило то что, что протокол в логе показан как HTTP/1.0

Получается, что Slurp пишет GET ... HTTP/1.0, но при этом дает Host: header, и еще к тому же accept: gzip...

Уфф - стало легче, с одной стороны. По крайней мере, у меня нет Slurpоубийственного HTML.

Остается вопрос, почему тогда Slurp не продолжает читать другие страницы, следуя линкам. У меня есть несколько таких сайтов: Slurp приходит, читает robots, потом берет одну или несколько страниц - и уходит. И так каждые два дня. Причем эти несколько страниц всегда одни и те же.

Возможно, он читает то, на что есть ссылки с других сайтов... Странно. Я бы на его месте вел себя по-другому :D

Еще раз ОГРОМНОЕ СПАСИБО, Interitus!!!

-- Studiosi

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

15 августа 2004, 18:54

#3

Получается, что Slurp пишет GET ... HTTP/1.0, но при этом дает Host: header, и еще к тому же accept: gzip...

Там в GET можно после 1. написать что угодно (хоть GET /document HTTP/1.2389dajsdk), сервер документ отдаст правильно. Googlebot тоже раньше 1.0 писал, хотя всегда разумеется использовал стандарт 1.1.

Остается вопрос, почему тогда Slurp не продолжает читать другие страницы, следуя линкам. У меня есть несколько таких сайтов: Slurp приходит, читает robots, потом берет одну или несколько страниц - и уходит. И так каждые два дня. Причем эти несколько страниц всегда одни и те же.

Ну это распространенная проблема, посоветовать можно только работать над ссылками на сайт извне, и ждать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

0

Studiosi

15 августа 2004, 22:12

#4

Там в GET можно после 1. написать что угодно (хоть GET /document HTTP/1.2389dajsdk), сервер документ отдаст правильно.

Мне казалось, что если писать 1.1 - то сервер отдаст chunked.

А если 1.0 - то обычным способом. Но это - так, к Slurp отношения не имеет...

Ну это распространенная проблема, посоветовать можно только работать над ссылками на сайт извне, и ждать.

Либо - сайт "забанен". Или в этом случае Slurp вообще не приходит?

Ссылок, кстати, предостаточно. И сам сайт в Yahoo каталоге (оплачен)...

Еще раз - спасибо.

Аргументы почему не нужно Февраль 2024 Яндекс.Вебмастер 2 часть

[Удален]

15 августа 2004, 22:36

#5

Мне казалось, что если писать 1.1 - то сервер отдаст chunked.
А если 1.0 - то обычным способом. Но это - так, к Slurp отношения не имеет...

В общем похоже от настроек и сервера зависит. Я попробовал на одном апаче - с 1.0 и 1.1 выдает одинаково, байт в байт.

Либо - сайт "забанен". Или в этом случае Slurp вообще не приходит?

А сайт давно существует? Могут быть проблемы из-за давнишних отношений с Inktomi, особенно если им когда-то платили деньги за индексацию.

Главная страница, которую робот берет, в индексе появляется? Ее кеш в индексе доступен?

Скрыть от всех лишний Как система Sape проверяет, Помогите оценить кампанию в

S

0

Studiosi

16 августа 2004, 05:03

#6

А сайт давно существует? Могут быть проблемы из-за давнишних отношений с Inktomi, особенно если им когда-то платили деньги за индексацию.
Главная страница, которую робот берет, в индексе появляется? Ее кеш в индексе доступен?

Сайту 4 года. Платили Inktomi года полтора назад. Именно за эту главную страницу. В индексе она не появляется. Запрос типа site:... ничего не находит.

Вообще-то похоже что дело в прошлых отношениях с Inktomi. Все сайты (по-памяти), за которые я когда-то платил в positiontech - действительно отсутствуют.

Есть лекарство?

Еще раз спасибо за ответы. Куда высылать 🍻 ?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

16 августа 2004, 05:26

#7

Есть лекарство?

Ну можно вступить в долгую и безнадежную переписку с ними... или звонить (если есть откуда по местному тарифу, потому что висеть на линии буквально часами можно).

Если позволяют обстоятельства - то имеет смысл сделать специально для них сайты с нуля.

Еще раз спасибо за ответы. Куда высылать 🍻 ?

Я 🍻 не пью. :)

S

0

Studiosi

16 августа 2004, 05:55

#8

Я 🍻 не пью. :)

Правильно. Remi Martin вкуснее и полезнее...

ОК - все со Slurp-ом ясно. Звонить мы им не будем. Закроем тему и пойдем "поднимать целину". Гуглу-гуглово, а Слурпу-слурпово...

С-П-А-С-И-Б-О и до встречи!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

24

miok

20 августа 2004, 17:35

#9

а кто такой SLURP???

[Удален]

20 августа 2004, 18:12

#10

Папа, а де МОРЕ? 😂

Slurp - робот поисковой системы Yahoo (ранее - робот Inktomi).

Все что нужно знать о DDоS-атаках грамотному менеджеру

Курс биткоина превысил $50 тысяч