Как остановить Yandexbot, если robots.txt отдаёт 301 ответ сервера?

12
M
На сайте с 03.11.2004
Offline
94
2301

Привет, оптимизаторы!

На сайте старого домена в /robots.txt всегда была запрещающая директива для бота:

User-agent: Yandexbot

Disallow: /

Затем хост полностью поменялся через 301 редирект. И сейчас робот постоянно (видимо переходя по внешним ссылкам) запрашивает внутренние адреса на старом домене.

Вопрос: как остановить бота, если при обращении к старому /robots.txt он получает 301 ответ сервера?

S
На сайте с 28.10.2005
Offline
311
#1

Во-первых


User-agent: Yandex
Disallow: /

Ставьте редирект со старых адресов на новые

M
На сайте с 03.11.2004
Offline
94
#2

По-моему, User-agent: Yandex и User-agent: Yandexbot это одно и то же.

semenov:
Ставьте редирект со старых адресов на новые

Именно так и есть, о чём сказано в исходном сообщении выше, что домен полностью поменялся и на все запросы сервер отдаёт 301 ответ, но в логах старого хоста пишутся запросы.

AN
На сайте с 05.06.2004
Offline
243
#3

Ну дык... Для robots.txt отдавать не 301, а 200...

Размещу ваши баннеры на посещаемых сайтах. Места еще есть! Возможен безнал. (/ru/forum/324945) Нужны копирайтеры/рерайтеры - медики. Пишите в личку. (/ru/forum/676932)
M
На сайте с 03.11.2004
Offline
94
#4

AnNik, не вариант, потому что по логике вещей сайта не существует вообще, т. е. нет там больше никаких файлов и точка.

K
На сайте с 31.01.2001
Offline
737
#5
motorhead:
По-моему, User-agent: Yandex и User-agent: Yandexbot это одно и то же.

http://help.yandex.ru/webmaster/?id=995329 - Yandexbot - это только один из множества ботов.

motorhead:
как остановить бота, если при обращении к старому /robots.txt он получает 301 ответ сервера

Никак, он будет вечно дергать robots.txt и получать 301.

А почему это для вас является проблемой? Нужно платить за старый хостинг? Сделайте старый домен алиасом новому и отключите старый хостинг.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
богоносец
На сайте с 30.01.2007
Offline
768
#6
motorhead:
т. е. нет там больше никаких файлов

Наберите http://yandex.ru/

А роботс существует http://yandex.ru/robots.txt

Сравните с http://www.yandex.ru/robots.txt

M
На сайте с 03.11.2004
Offline
94
#7
Kost:
http://help.yandex.ru/webmaster/?id=995329 - Yandexbot - это только один из множества ботов.

Как раз оттуда я так понял, что YandexBot "основной индексирующий робот", соответсвенно, если его запретить, то и остальные тоже, поэтому и счёл его равным UA Yandex. Возможно ошибаюсь.

Kost:

Никак, он будет вечно дергать robots.txt и получать 301.
А почему это для вас является проблемой? Нужно платить за старый хостинг? Сделайте старый домен алиасом новому и отключите старый хостинг.

Ды проблемы то нет, скорее желание разобраться :)

богоносец:
Наберите http://yandex.ru/
А роботс существует http://yandex.ru/robots.txt
Сравните с http://www.yandex.ru/robots.txt

Два разных хоста, и никакого 301 редиректа. Я же говорю о двух разных доменах.

K
На сайте с 31.01.2001
Offline
737
#8
motorhead:
поэтому и счёл его равным UA Yandex. Возможно ошибаюсь.

А вы посмотрите по ссылке, какие User-agent у разных роботов, сходите.

Disallow: Yandex

запретит их всех.

User-agent
.....
A case insensitive substring match of the name without version information is recommended.

http://www.robotstxt.org/orig.html - почитайте.

motorhead:
Ды проблемы то нет, скорее желание разобраться

К сожалению, вы не обозначили подробно и полностью вашу задачу. 99%, что она стандартная, значит у нее есть стандартное решение.

Но вы вывернули эту задачу нестандартным образом:

motorhead:
Вопрос: как остановить бота, если при обращении к старому /robots.txt он получает 301 ответ сервера?

Зачем?

M
На сайте с 03.11.2004
Offline
94
#9
Kost:
А вы посмотрите по ссылке, какие User-agent у разных роботов, сходите.
Disallow: Yandex
запретит их всех.
http://www.robotstxt.org/orig.html - почитайте.

Ну да, это понятно, но значит ли это, что если запретить YandexBot, то это вовсе не указание для YandexImages и прочих, например?

Kost:
К сожалению, вы не обозначили подробно и полностью вашу задачу. Зачем?

Задача простая - мне не нужен этот робот в логах, чисто эстетически :) А по-серьёзному - серверу незачем обрабатывать лишние запросы.

То есть, думаю так: первое обращение, которое робот делает к сайту это файл /robots.txt. Получает ответ 301, переходит, следует директивам уже оттуда. Там запрет, значит всё - стоп! Больше не запрашивает адреса ни со старого, ни с нового доменов. Разве не логично?

K
На сайте с 31.01.2001
Offline
737
#10
motorhead:
Там запрет, значит всё - стоп! Больше не запрашивает адреса ни со старого, ни с нового доменов. Разве не логично?

Здрасьте. А если вы уберете robots.txt, домен больше никогда не попадет в индекс?

А зеркальщик как будет расклеивать зеркала, если вы уберете редирект?

motorhead:
Задача простая - мне не нужен этот робот в логах, чисто эстетически

Это вам лучше, извините, не сюда, а к доктору какому-нибудь.

Тогда отключите запись логов, отключите сервер от интернета в конце концов.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий