Наскучивший robots.txt

L
На сайте с 12.02.2004
Offline
24
lio
548

Сегодня обнаружил одну интересную особенность интерпретации Яндексом robots.txt.

Руками удалял раздел из индекса, при этом Яндекс выругался, что раздела нет в robots.txt. Пошел проверять - раздел есть!

Поразбирался. Единственное, что смущало это пустые строки в файле (там запретов много - для удобства разбито по группам). Убрал пустые строчки - Яндекс запрос скушал. Получается, что конец файла он определяет по пустой строке?

С уважением, Игорь уралвеб (http://www.uralweb.ru/)
Sonja
На сайте с 05.06.2003
Offline
170
#1

http://www.citforum.ru/internet/search/rbtspec.shtml#4


Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:
...
Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.
С уважением, Ольга Лебедева
C
На сайте с 19.09.2001
Offline
120
#2

По пустой строке определяются границы записи, в каждой из которых может быть одна или несколько строк User-agent и одна или несколько строк Disallow.

Таким образом Ваше "удобство" нарушало стандарт, а Яндекс тут был прав, поскольку игнорировал неправильные записи, в Вашем случае все, кроме первой.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
L
На сайте с 12.02.2004
Offline
24
lio
#3

Да, хорошие грабли :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий