Странное поведение робота Яндекса...

12
SI
На сайте с 01.04.2003
Offline
25
#11
Как писал melkov
Что касается Вашего случая, здесь другая ошибка, возникшая, очевидно, после прочтения другой вредительской статьи про robots.txt. Почитайте стандарт.
http://www.robotstxt.org/wc/norobots.html

Спасибо, прочел, составил следующее:


User-agent: ia_archiver
User-agent: TurnitinBot
User-agent: Zyborg
User-agent: http://www.almaden.ibm.com/cs/crawler
Disallow: /

Хотя никаких нарушений стандарта в предыдущей версии я не вижу.

M
На сайте с 25.01.2001
Offline
57
#12

Теперь правильно :)

> Хотя никаких нарушений стандарта в предыдущей версии я не вижу.

Нет, конечно, нарушений стандарта, конечно, нет. Однако данный обзац:

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Unrecognised headers are ignored.

- означает то, что в предыдущей версии Вашего robots.txt была только одна запись (record), причем все user-agent'ы, кроме первого, игнорируются.

Другое дело, что в стандарте не написано явно, что делать, когда в записи есть строчка с "пустым" "Disallow:" и с не пустыми:).

> Недавно меня проиндексил Рамблер.

В выдаче Рамблера про Вас написано 16.04.2003 - это было до того, как Вы выложили неправильный robots.txt.

C
На сайте с 19.09.2001
Offline
120
#13
Gray, кстати, у Вас уже почти месяц лежит статья про robots.txt с недопустимой ошибкой (опциональные пробелы между именем поля и двоеточием не предусмотрены стандартом).

Это камень в мой огород, в статье действительно ошибка.

Gray, можно каким-нибудь образом подправить текст статьи?

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
SI
На сайте с 01.04.2003
Offline
25
#14

melkov,

Сегодня ночью приходил Yandex/1.01.001 (compatible; Win16; I) и дергал все подряд с доменов отличных от www.lomalka.ru.

Т.е. значит не совсем Вы вручную забанили мои домены. 114 запросов было.

Но вчера вечером я сделал:


RewriteCond %{HTTP_USER_AGENT} ^Yandex
RewriteCond %{HTTP_HOST} !^www.lomalka.ru$
RewriteRule (.+) http://www.lomalka.ru$1

И еще обнаружил очень странную вещь, в логе Апач у меня пишет содержание Location:, так вот _иногда_ в логе видно что редирект прошел на http://www.lomalka.ruhttp://www.lomalka.ru

Хотя первая строка запроса в логе видна как "GET / HTTP/1.1"

Как такое может быть не знаю, mod_rewrite использую давно, никогда ранее такого не видел. На всякий случай сменил (.+) на ^/(.*?)

Еще поставлю tcpdump с фильтром на вашу сетку.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий