melkov

Рейтинг
57
Регистрация
25.01.2001
Должность
postgraduate student (DMMC), yandex.ru programmer
Интересы
search engine(s), 3d engines

Exteris, еще раз даю полезную ссылку:

http://kako.yandex.ru/cgi-bin/test-robots

yax, значит, не так уж все и плохо :)

Avatar,

> полноценный живой Роботс.тхт

Надеюсь, что-то вроде этого когда-нибудь и сделаем, но только вместе с обновлением всего хелпа.

yax, небольшой опрос (:)):

1) Откуда Вы узнали о директиве host?

2) Почему Вы (ошибочно) решили составить файл robots.txt именно так, как в Вашем первоначальном постинге?

Теперь правильно :)

> Хотя никаких нарушений стандарта в предыдущей версии я не вижу.

Нет, конечно, нарушений стандарта, конечно, нет. Однако данный обзац:

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Unrecognised headers are ignored.

- означает то, что в предыдущей версии Вашего robots.txt была только одна запись (record), причем все user-agent'ы, кроме первого, игнорируются.

Другое дело, что в стандарте не написано явно, что делать, когда в записи есть строчка с "пустым" "Disallow:" и с не пустыми:).

> Недавно меня проиндексил Рамблер.

В выдаче Рамблера про Вас написано 16.04.2003 - это было до того, как Вы выложили неправильный robots.txt.

ShamoIdol, замечание про лишние пробелы относится не к Вам, а к администратору этого сайта. На на морде данного сайта лежит ссылка на статью о robots.txt, которая дезинформирует пользователей. Такими статьями с ошибками полон интернет, и это очень плохо.

Что касается Вашего случая, здесь другая ошибка, возникшая, очевидно, после прочтения другой вредительской статьи про robots.txt. Почитайте стандарт.

http://www.robotstxt.org/wc/norobots.html

ShamoIdol,

К вам заходил "зеркальщик". Программа совершенно безобидная, но с учетом как минимум 35 тыс.(!) (идентичных) поддоменов Ломалки, оказавшихся в нашей базе, получились такие вот действительно жуткие цифры (610 тыс. запросов, включая robots.txt). Уж извините :).

Такого более не повторится, поскольку Ваши поддомены, отличные от www.lomalka.ru, были по итогам хождения зеркальшика забанены вручную.

"Зеркальщик", действительно, в некоторых специфических случаях может сам конструировать url'ы. Это нужно для склейки всяких разных *ИЦ'ов.

Теперь хорошие новости :)

У Вас на сайте примерно с конца апреля неправильный robots.txt (записи должны разделяться пробелами). Сейчас он, на самом деле, запрещает всем все, так что никакого полезного трафика все равно пока не будет.

Gray, кстати, у Вас уже почти месяц лежит статья про robots.txt с недопустимой ошибкой (опциональные пробелы между именем поля и двоеточием не предусмотрены стандартом).

Ну а сайт-то хоть какой?

Срочно нужно немного кофейной гущи...

Случайно не lomalka.ru?

ShamoIdol, Cherny, напоминаю, что записи

a) начинаются с user-agent'ов;

b) разделяются пустой строкой;

c) незнакомые директивы в неправильном месте игнорируются.

Поэтому:

- пример ShamoIdol говорит disallow: / всем роботам.

- пример (второй) Cherny говорит disallow: / Рамблеру.

Гросс, это весьма обычный вопрос для техподдержки. Если Вы напишете на addurl@yandex.ru (с указанием адреса сайта), то Вам объяснят, в чем дело. На форумах на такие вопросы Вам никто ответить не сможет (точнее, случае форума Яндекса, хотя Вам ответить и смогут, но не будут, т.к. это противоречит правилам форума).

(В Вашем случае при запросе файлов с сайта из Вашего профайла, датированных в выдаче сентябрем 2002г., робот получает ответ 304 - not modified, т.е. проверьте дату их создания и вообще системные часы на Вашем сервере :)).

Nicon, роботы многих поисковых систем имеют ограничения на размер скачиваемого файла. Об ограничениях ниже 100KB лично я никогда не слышал :).

Возможно, это и есть искомый размер.

Cherny, данный конкретный скрипт не отличается от "большого робота" ничем, кроме версии user-agent'а.

В стандарте нигде не написано, с каким content-type должен передаваться robots.txt. Поэтому можно и так ответить:

Content-type: text/robots.txt
:)

(хотя лучше все-таки не рисковать).

Всего: 142