как заблокировать вебархиву доступ к сайту?

M
На сайте с 13.07.2012
Offline
171
632
Всем привет! Так всё таки, есть ли по настоящему работающий способ заблокировать к сайту доступ для  вебархива? Помогает ли User-agent: ia_archiver Disallow: / в наше время? Или нет смысла делать файл robots.txt? Как сделать так чтобы вебархив не сканировал сайт?
HOSTER_BOMBA
На сайте с 08.06.2020
Offline
42
#1
mariux :
Всем привет! Так всё таки, есть ли по настоящему работающий способ заблокировать к сайту доступ для  вебархива? Помогает ли User-agent: ia_archiver Disallow: / в наше время? Или нет смысла делать файл robots.txt? Как сделать так чтобы вебархив не сканировал сайт?


отдавать 403 по user-agent через .htaccess для apache или же через nginx если туда есть доступ

Европейский хостинг провайдер в Эстонии - https://iphoster.net/ - дешевые KVM VPS в Польше, США, Канаде, Франции, Англии, Нидерландах и Германии от 3.95$. Дешевый shared хостинг от 1$ с панелями Cpanel, ISPManager, DirectAdmin. https://iphwiki.net/ - статьи на тему хостинга.
M
На сайте с 13.07.2012
Offline
171
#2
HOSTER_BOMBA #:


отдавать 403 по user-agent через .htaccess для apache или же через nginx если туда есть доступ


а есть какая нибудь инструкция?

roog
На сайте с 09.03.2008
Offline
132
#3
У роботов вебархива фиксированные ip ботов, заблокировать не проблема и по user agent 
S
На сайте с 18.04.2008
Offline
125
#4
mariux #:


а есть какая нибудь инструкция?

В самом верху  .htaccess прописываете боты, которые хотите блокировать

Пример:

SetEnvIfNoCase User-Agent "JobboerseBot" bot

SetEnvIfNoCase User-Agent "Java/1" bot

SetEnvIfNoCase User-Agent "SemrushBot" bot

SetEnvIfNoCase User-Agent "ips-agent" bot

SetEnvIfNoCase User-Agent "AlphaBot" bot

SetEnvIfNoCase User-Agent " ia_archiver " bot

Deny from env=bot


После этого всем, указанным выше ботам будет выдаваться ошибка 403 и блокироваться доступ к сайту

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий