Exteris, еще раз даю полезную ссылку:
http://kako.yandex.ru/cgi-bin/test-robots
yax, значит, не так уж все и плохо :)
Avatar,
> полноценный живой Роботс.тхт
Надеюсь, что-то вроде этого когда-нибудь и сделаем, но только вместе с обновлением всего хелпа.
yax, небольшой опрос (:)):
1) Откуда Вы узнали о директиве host?
2) Почему Вы (ошибочно) решили составить файл robots.txt именно так, как в Вашем первоначальном постинге?
Теперь правильно :)
> Хотя никаких нарушений стандарта в предыдущей версии я не вижу.
Нет, конечно, нарушений стандарта, конечно, нет. Однако данный обзац:
The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Unrecognised headers are ignored.
- означает то, что в предыдущей версии Вашего robots.txt была только одна запись (record), причем все user-agent'ы, кроме первого, игнорируются.
Другое дело, что в стандарте не написано явно, что делать, когда в записи есть строчка с "пустым" "Disallow:" и с не пустыми:).
> Недавно меня проиндексил Рамблер.
В выдаче Рамблера про Вас написано 16.04.2003 - это было до того, как Вы выложили неправильный robots.txt.
ShamoIdol, замечание про лишние пробелы относится не к Вам, а к администратору этого сайта. На на морде данного сайта лежит ссылка на статью о robots.txt, которая дезинформирует пользователей. Такими статьями с ошибками полон интернет, и это очень плохо.
Что касается Вашего случая, здесь другая ошибка, возникшая, очевидно, после прочтения другой вредительской статьи про robots.txt. Почитайте стандарт.
http://www.robotstxt.org/wc/norobots.html
ShamoIdol,
К вам заходил "зеркальщик". Программа совершенно безобидная, но с учетом как минимум 35 тыс.(!) (идентичных) поддоменов Ломалки, оказавшихся в нашей базе, получились такие вот действительно жуткие цифры (610 тыс. запросов, включая robots.txt). Уж извините :).
Такого более не повторится, поскольку Ваши поддомены, отличные от www.lomalka.ru, были по итогам хождения зеркальшика забанены вручную.
"Зеркальщик", действительно, в некоторых специфических случаях может сам конструировать url'ы. Это нужно для склейки всяких разных *ИЦ'ов.
Теперь хорошие новости :)
У Вас на сайте примерно с конца апреля неправильный robots.txt (записи должны разделяться пробелами). Сейчас он, на самом деле, запрещает всем все, так что никакого полезного трафика все равно пока не будет.
Gray, кстати, у Вас уже почти месяц лежит статья про robots.txt с недопустимой ошибкой (опциональные пробелы между именем поля и двоеточием не предусмотрены стандартом).
Ну а сайт-то хоть какой?
Срочно нужно немного кофейной гущи...
Случайно не lomalka.ru?
ShamoIdol, Cherny, напоминаю, что записи
a) начинаются с user-agent'ов;
b) разделяются пустой строкой;
c) незнакомые директивы в неправильном месте игнорируются.
Поэтому:
- пример ShamoIdol говорит disallow: / всем роботам.
- пример (второй) Cherny говорит disallow: / Рамблеру.
Гросс, это весьма обычный вопрос для техподдержки. Если Вы напишете на addurl@yandex.ru (с указанием адреса сайта), то Вам объяснят, в чем дело. На форумах на такие вопросы Вам никто ответить не сможет (точнее, случае форума Яндекса, хотя Вам ответить и смогут, но не будут, т.к. это противоречит правилам форума).
(В Вашем случае при запросе файлов с сайта из Вашего профайла, датированных в выдаче сентябрем 2002г., робот получает ответ 304 - not modified, т.е. проверьте дату их создания и вообще системные часы на Вашем сервере :)).
Nicon, роботы многих поисковых систем имеют ограничения на размер скачиваемого файла. Об ограничениях ниже 100KB лично я никогда не слышал :).
Возможно, это и есть искомый размер.
Cherny, данный конкретный скрипт не отличается от "большого робота" ничем, кроме версии user-agent'а.
В стандарте нигде не написано, с каким content-type должен передаваться robots.txt. Поэтому можно и так ответить:
Content-type: text/robots.txt
(хотя лучше все-таки не рисковать).