Как остановить Yandexbot, если robots.txt отдаёт 301 ответ сервера?

12
M
На сайте с 03.11.2004
Offline
94
#11
Kost:
Здрасьте. А если вы уберете robots.txt, домен больше никогда не попадет в индекс?
А зеркальщик как будет расклеивать зеркала, если вы уберете редирект?

Почему никогда? Если он периодически обращается к этому файлу - пусть хоть заддосит, но должен следовать указаниям.

Это вам лучше, извините, не сюда, а к доктору какому-нибудь.
Тогда отключите запись логов, отключите сервер от интернета в конце концов.

Не надо хамить 🙅

богоносец
На сайте с 30.01.2007
Offline
774
#12

У создатей ботов несколько другая логика...

... с yandex.ru стоит 301 на www.yandex.ru но роботс по первому хосту доступен. Думаете это случайно так?

K
На сайте с 31.01.2001
Offline
737
#13
motorhead:
А по-серьёзному - серверу незачем обрабатывать лишние запросы.

Это вы считаете "по-серьёзному" ? У вас обработка одного запроса сервером сколько денег стоит?

А может быть вы последний раз читали help.yandex.ru в 2004 году и не знаете про про директиву CrawlDelay ? Поставьте хоть 3600 секунд.

Вы путаетесь в показаниях:

motorhead:
Там запрет, значит всё - стоп! Больше не запрашивает адреса ни со старого, ни с нового доменов.
motorhead:
Если он периодически обращается к этому файлу

Так "стоп" или "периодически обращается"?

Вы же хотите чтобы "стоп". Я вам возражаю: тогда робот никогда больше не узнает, что robots.txt изменен.

Я пытаюсь понять, почему у вас возникают сложности на пустом месте, или это от недостаточной информированности, или тут что-то другое.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
M
На сайте с 03.11.2004
Offline
94
#14
Kost:
Это вы считаете "по-серьёзному" ? У вас обработка одного запроса сервером сколько денег стоит?
А может быть вы последний раз читали help.yandex.ru в 2004 году и не знаете про про директиву CrawlDelay ? Поставьте хоть 3600 секунд.

Робот не следует никаким директивам, в том числе CrawlDelay, т. к. получает 301 ответ. По которому переходит и получает 200 OK уже на новом домене, где ему всё запрещено. И начинает обращаться к файлам на старом домене.

Вы путаетесь в показаниях:
Так "стоп" или "периодически обращается"?
Вы же хотите чтобы "стоп". Я вам возражаю: тогда робот никогда больше не узнает, что robots.txt изменен.

"Периодически обращается" относится к файлу /robots.txt, в котором "стоп". Значит никакие файлы с сайта больше не запрашивать.

motorhead добавил 16.09.2011 в 18:38

Нашёл огорчительный ответ:

Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен.
http://help.yandex.ru/webmaster/?id=996567

По-моему, это неправильно :(

И там же для вас, оптимизаторы, разница между YandexBot и Yandex:

User-agent: YandexBot - будет использоваться только основным индексирующим роботом.
User-agent: Yandex - будет использована всеми роботами Яндекса, кроме основного индексирующего.

motorhead добавил 16.09.2011 в 20:07

И ответ службы поддержки Яндекса:

Здравствуйте!

Если робот получает http-код отличный от 200, считается, что доступ роботу не ограничен. Переход по редиректу робот не производит, а запретить индексирование страниц другого домена невозможно.
--
С уважением, Платон Щукин
Служба поддержки Яндекса
http://help.yandex.ru/
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий