.htaccess хотел заблокировать роботов - заблокировал доступ с мобильного

lustoff
На сайте с 14.10.2011
Offline
76
6382

Всем привет!

Хотел заблокировать доступ "плохим" роботам, чтоб уменьшить нагрузку на хостинг.

Нашел в интернете такую конструкцию

# BEGIN Bad Bot Blocker

SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DOC|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot
SetEnvIfNoCase Referer "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DOC|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot

<Limit GET POST HEAD>
Order Allow,Deny
Allow from all

# Блокируем плохие IP
#deny from 38.100.19.8/29
#deny from 38.100.21.0/24

Deny from env=bad_bot
</Limit>

# END Bad Bot Blocker

Хорошо, что попробовал зайти с мобильного - получил 403 ошибку.

Подскажите, пожалуйста, какой User-Agent в списке блокирует доступ с мобильного?

---------- Добавлено 17.03.2017 в 13:51 ----------

Может, Unknown?

https://04744.biz (https://04744.biz) - доска объявлений Умани. Вы уверены, что ваше мнение не навязано другими? (http://www.youtube.com/watch?v=CX6VvoTo0Qc&feature=related)
S1
На сайте с 15.09.2016
Offline
9
#1

Все эти списки не имеют никакого смысла, т.к. "плохие роботы" не передают User-Agent. Они подставляют какой угодно User-Agent, кроме своего настоящего.

SEO анализ сайта (https://seo11.ru/)
lustoff
На сайте с 14.10.2011
Offline
76
#2
seo11:
Все эти списки не имеют никакого смысла, т.к. "плохие роботы" не передают User-Agent. Они подставляют какой угодно User-Agent, кроме своего настоящего.

В логах AhrefsBot и MJ12bot, например, довольно часто мелькают.

Они нужны на сайте или только нагрузку создают?

Samail
На сайте с 10.05.2007
Offline
369
#3
lustoff:
В логах AhrefsBot и MJ12bot, например, довольно часто мелькают.
Они нужны на сайте или только нагрузку создают?

Эти не нужны точно. А User-Agent в логах поглядите, зайдите на сайт да поглядите кого в это время не пустило на сайт.

lustoff
На сайте с 14.10.2011
Offline
76
#4

Samail, Подскажите, если добавляю верхний код. То не пускает с мобильного.

Какая часть правила мешает?

176.xx.xx.xxx - - [17/Mar/2017:16:38:41 +0200] "GET /modules/mod_ariyuimenu/mod_ariyuimenu/css_loader.php?menuId=ariyui92 HTTP/1.1" 403 776 "https://04744.biz/index.php?option=com_users&view=login&return=L215X2Fkcw==" "Mozilla/5.0 (Linux; Android 5.0; Titans2_DG700 Build/LRX21M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.108 Mobile Safari/537.36"

176.xx.xx.xxx - - [17/Mar/2017:16:38:44 +0200] "GET /templates/beez_20/fonts/TitilliumMaps29L002.otf HTTP/1.1" 403 646 "https://04744.biz/templates/beez_20/css/personal.css" "Mozilla/5.0 (Linux; Android 5.0; Titans2_DG700 Build/LRX21M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.108 Mobile Safari/537.36"
176.xx.xx.xxx - - [17/Mar/2017:16:38:44 +0200] "GET /templates/beez_20/images/nature/arrow1.gif HTTP/1.1" 403 779 "https://04744.biz/templates/beez_20/css/personal.css" "Mozilla/5.0 (Linux; Android 5.0; Titans2_DG700 Build/LRX21M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.108 Mobile Safari/537.36"
176.xx.xx.xxx - - [17/Mar/2017:16:38:45 +0200] "GET /templates/beez_20/fonts/TitilliumMaps29L002.woff HTTP/1.1" 403 647 "https://04744.biz/templates/beez_20/css/personal.css" "Mozilla/5.0 (Linux; Android 5.0; Titans2_DG700 Build/LRX21M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.108 Mobile Safari/537.36"
S
На сайте с 30.09.2016
Offline
469
#5

А можно я отвечу?:o

Мешает Titan.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
lustoff
На сайте с 14.10.2011
Offline
76
#6
Sitealert:
А можно я отвечу?:o
Мешает Titan.

Спасибо. Он, зараза.

---------- Добавлено 17.03.2017 в 18:22 ----------

Подскажите, может какие-то юзерагенты стоит добавить, а что-то убрать?

dimsog
На сайте с 08.08.2011
Offline
149
#7

lustoff, блокируй их.

У меня кстати где-то был список UserAgent всяких ботов, которых я на своих сайтах банил. Надо найти...

ihor vps -> ihc.ru
dimsog
На сайте с 08.08.2011
Offline
149
#8


"Jakarta Commons-HttpClient/3.1"
"Jakarta-Commons-VFS"
"ltx71 - (http://ltx71.com/)"
"Mozilla/5.0 (compatible; AhrefsBot/5.1; +http://ahrefs.com/robot/)"
"Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)"
"Mozilla/5.0 (compatible; AhrefsBot/5.3; +http://ahrefs.com/robot/)"
"Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"
"Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
"Mozilla/5.0 (compatible; MJ12bot/v1.4.6; http://mj12bot.com/)"
"Mozilla/5.0 (compatible; MJ12bot/v1.4.7; http://mj12bot.com/)"
"Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)"
"netEstate NE Crawler (+http://www.website-datenbank.de/)"
"Riddler (http://riddler.io/about)"
"Virusdie crawler/2.1"
"WinHTTP"
"Yo-yo"

Вот эти вот ребята активно парсят мои сайты, игнорируя директивы в robots.txt. Кстати, они же "долбят" и после бана. К примеру, вот последняя статистика по просмотрам с забаненных USER-Agent:

Во вложениях CSV файл, из моей внутренней статистики, там IP и забаненный User-Agent, 995 IP адресов. Может кому будет полезно.

txt User_ip_ban.txt

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий