Наскучивший robots.txt

24

lio

25 мая 2004, 13:17

553

Сегодня обнаружил одну интересную особенность интерпретации Яндексом robots.txt.

Руками удалял раздел из индекса, при этом Яндекс выругался, что раздела нет в robots.txt. Пошел проверять - раздел есть!

Поразбирался. Единственное, что смущало это пустые строки в файле (там запретов много - для удобства разбито по группам). Убрал пустые строчки - Яндекс запрос скушал. Получается, что конец файла он определяет по пустой строке?

С уважением, Игорь уралвеб (http://www.uralweb.ru/)

170

Sonja

25 мая 2004, 13:45

#1

http://www.citforum.ru/internet/search/rbtspec.shtml#4

Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:
...
Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

С уважением, Ольга Лебедева

C

120

Cherny

25 мая 2004, 13:50

#2

По пустой строке определяются границы записи, в каждой из которых может быть одна или несколько строк User-agent и одна или несколько строк Disallow.

Таким образом Ваше "удобство" нарушало стандарт, а Яндекс тут был прав, поскольку игнорировал неправильные записи, в Вашем случае все, кроме первой.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Как удалить картинки из Составление файла robots.txt Последние сутки большая нагрузка

L

24

lio

25 мая 2004, 18:37

#3

Да, хорошие грабли :)

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов