Робот mail.ru грузит хостинг. Как запретить?

12
gormarket
На сайте с 29.12.2010
Offline
47
#11
Kost:
А это позволит роботу скачать файл /robots.txt , чтобы увидеть запрет?

Приношу извинения, этого не учел (сначала предложил заблокировать робота полностью, а потом общаться с ним через robots.txt).

Mr 13:
если забанить бота в .htaccess то он не сможет обратиться даже к robots.txt

Чтобы этого не произошло, можно добавить только запрет в robots.txt, а потом, если это не поможет, заблокировать бота через .htaccess

Либо сделать оба запрета одновременно, но в .htaccess оставить возможность боту скачивать robots.txt:

RewriteCond %{HTTP_USER_AGENT} ^Mail\.Ru/1\.0$
RewriteCond %{REQUEST_URI} !^robots\.txt$
RewriteRule .* - [G]

(сделал более правильной первую строку (по сравнению с приведенным выше): . здесь означает любой символ, а \. означает точку)

askary:
бот сначала смотрит на роботс или htaccess?

это зависит от бота, как его сделают, так и будет

например для Гугла (как я недавно узнал):

если ссылка найдена в сети (не на данном сайте), то бот вообще игнорирует указания в robot.txt при индексировании этой страницы.

Товары и цены в магазинах Вашего города: Городской рынок (http://gormarket.ru/)
Metal Messiah
На сайте с 01.08.2010
Offline
163
#12

Если беспокоишься за процессорное время то поставь в грузящие скрипты в начало проверку

если HTTP_USER_AGENT=Mail.Ru/1.0 то выдавать либо редирект либо статическую страницу либо forbidden либо что посоветуют профи...

anonymous, думай что говоришь и не забывай подписать отзыв :)
SA
На сайте с 15.02.2011
Offline
0
#13

можно же проще через crawl-delay в robots.txt

http://abdulov666.narod.ru/ - Сайт о богосатане Абдулове, о абдулорелигии и о том как стать адептом церкви ада абдулова.
ХЗ
На сайте с 31.08.2008
Offline
155
#14
gormarket:
RewriteCond %{HTTP_USER_AGENT} ^Mail.Ru/1.0$
RewriteRule .* - [G]

если второго и третьего и т.д. юзерагента через | будет правильно обрабатывать, типа:

RewriteCond %{HTTP_USER_AGENT} ^Mail.Ru/1.0 | Mozilla | Opera$

RewriteRule .* - [G]

?

S
На сайте с 28.10.2005
Offline
319
#15

> Либо сделать оба запрета одновременно, но в .htaccess оставить возможность боту скачивать robots.txt

Самый адекватный вариант

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий