Блокировка не нужных ботов а Nginx

12
J
На сайте с 06.07.2011
Offline
160
1580

Где-то на просторах интернета нашёл данный список ботов:

Добавил правило в nginx и перестал работать правильно крон на wordpress.

Если комментирую строки и делаю рестарт nginx, крон начинает отрабатывать задачи. Что не так, подскажите пожалуйста и поделитесь рабочим листом ботов, которые можно забанить. Похоже человек не совсем разбирался в том, что блокирует.



map $http_user_agent $limit_bots {
default 0;

~*(AltaVista|BlackWidow|Bot|ChinaClaw|Custo|DISCo|Download|Demon|eCatch|EirGrabber|EmailSiphon|EmailWolf|SuperHTTP|Surfbot|WebWhacker) 1;
~*(Express|WebPictures|ExtractorPro|EyeNetIE|FlashGet|GetRight|GetWeb!|Go!Zilla|Go-Ahead-Got-It|GrabNet|Grafula|HMView|Go!Zilla|Go-Ahead-Got-It) 1;
~*(rafula|HMView|HTTrack|Stripper|Sucker|Indy|InterGET|spider|Ninja|JetCar|larbin|LeechFTP|Downloader|tool|Navroad|NearSite|NetAnts|tAkeOut|WWWOFFLE) 1;
~*(GrabNet|NetSpider|Vampire|NetZIP|Octopus|Offline|PageGrabber|Foto|pavuk|pcBrowser|RealDownload|ReGet|SiteSnagger|SmartDownload|SuperBot|WebSpider) 1;
~*(Teleport|VoidEYE|Collector|WebAuto|WebCopier|WebFetch|WebGo|WebLeacher|WebReaper|WebSauger|eXtractor|Quester|WebStripper|WebZIP|Wget|Widow|Zeus) 1;
~*(Twengabot|htmlparser|libwww|Python|perl|urllib|scan|Curl|email|PycURL|Pyth|PyQ|WebCollector|WebCopy|webcraw) 1;

}

До этого был список бан ботов такой и всё работало:

Правильный ли это список, блокировать curl к примеру?



~*(htmlparser|libwww|python|perl|urllib|scan|Curl|wget|email|PycURL|PyQ|WebCollector|WebCopy|webcraw|uCrawler|Apache-HttpClient) 1;
~*(DotBot|AhrefsBot|Seopult|MegaIndex|Uptimebot|MJ12bot|BUbiNG|AlphaBot|SemrushBot|spbot|IndeedBot|BLEXBot|org_bot|Qwantify|FlockBrain|ccbot|Qwantify|Gigabot|UnknownSpider|Unknown|Python|amazonaws.com|amazonaws) 1;

Ещё письмо пришло от сервиса, как закомментировал строки, который сканирует сайт онлайн или нет. Типа сайт снова онлайн.



RECOVERY ALERT
Your website is no longer on error.

URL: https://mydomain
Time: 2020-05-06 17:18:11 -0500
Time On Error: 7 hours 21 minutes 24 seconds

baas
На сайте с 17.09.2012
Offline
161
#1

Значит в кроне есть задача/правило которое попадает под условия блокирования ботов.

Настройка BSD систем. (https://www.fryaha.ru) Знание сила, незнание Рабочая сила!
Евгений Крупченко
На сайте с 27.09.2003
Offline
178
#2

открываем access логи nginx и смотрим кому (с каким агентом) был ответ 403... или какой там сделан. это же только map кусок, вырванный неизвестно откуда. а само условие блокировки неизвестно куда у вас вставлено и как, может там загвоздка, а не в map.

J
На сайте с 06.07.2011
Offline
160
#3
baas:
Значит в кроне есть задача/правило которое попадает под условия блокирования ботов.

Это 100%, просто что бы не искать, подумал есть у кого-нибудь расширенный список ботов, что бы добавить, а эти строчки удалить.

Может есть у кого список ботов?

---------- Post added 07-05-2020 at 12:51 ----------

EvGenius:
открываем access логи nginx и смотрим кому (с каким агентом) был ответ 403... или какой там сделан. это же только map кусок, вырванный неизвестно откуда. а само условие блокировки неизвестно куда у вас вставлено и как, может там загвоздка, а не в map.

Да по логам можно было глянуть. Кусок map стоит в nginx.conf и блокирует по этим условиям всех, кто пытается попасть на сайт с таким агентом.

SocFishing
На сайте с 26.09.2013
Offline
118
#4

А что вы хотели, если вы блокируете юзерагенты ботов и желаете использовать какую-то задачу по крону. Значит в кроне выполняется что-то с каким-то дефолтным юзерагентом, может Curl может Wget может все что угодно. Смотреть что у вас там и измените useragent.

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.
LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#5

У вас крон через wget?

Запускайте крон так:

wget --user-agent="Mozilla/5.0" -O /dev/null -q -t 1 http://site.ru/cron.php

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
J
На сайте с 06.07.2011
Offline
160
#6
SocFishing:
А что вы хотели, если вы блокируете юзерагенты ботов и желаете использовать какую-то задачу по крону. Значит в кроне выполняется что-то с каким-то дефолтным юзерагентом, может Curl может Wget может все что угодно. Смотреть что у вас там и измените useragent.

Да, спасибо - разберусь, пока просто закомментировал. Где-то видел список ботов большой, думал может кто-то поделится им. Погуглю.

---------- Post added 07-05-2020 at 19:51 ----------

LEOnidUKG:
У вас крон через wget?

Запускайте крон так:

wget --user-agent="Mozilla/5.0" -O /dev/null -q -t 1 http://site.ru/cron.php

Нет, до этого всё работало с такими строчками:


~*(htmlparser|libwww|python|perl|urllib|scan|Curl|wget|email|PycURL|PyQ|WebCollector|WebCopy|webcraw|uCrawler|Apache-HttpClient) 1;
~*(DotBot|AhrefsBot|Seopult|MegaIndex|Uptimebot|MJ12bot|BUbiNG|AlphaBot|SemrushBot|spbot|IndeedBot|BLEXBot|org_bot|Qwantify|FlockBrain|ccbot|Qwantify|Gigabot|UnknownSpider|Unknown|Python|amazonaws.com|amazonaws) 1;
LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#7
Нет, до этого всё работало с такими строчками:

При указании useragent всё нормально становиться?

Елистратов
На сайте с 21.04.2007
Offline
229
#8

подскажите зачем тут map?

не супер эксперт в nginx, есть ли различия и какие если просто через if указать?


if ($http_user_agent ~* "bot1|bot2") {
return 403;
}
if ($http_user_agent = "-") {
return 403;
}

может кому нужен актуальный список, собирал сам около года.

if ($http_user_agent ~* (CCBot/2.0|BLEXBot|SeznamBot|python|coccocbot|WhatCMS|Nimbostratus-Bot|PetalBot|serpstatbot|YandeG|Bytespider|MJ12bot|TipTop|MagpieRSS|Friendica|linkdexbot|foaf-visualizer|Wget|SemrushBot|Ahrefs|netEstate|DotBot|AspiegelBot|ltx71)){
return 403;
}

if ($http_user_agent = "-") { return 403; }

обратите внимание на последнее $http_user_agent = "-" - очень много ботов вообще не подписывают юзер агент, такие тоже нужно "брить"

C уважением, Евгений. Покупаю аккаунты AdSense ()
HM
На сайте с 14.01.2012
Offline
223
#9
Елистратов:
если просто через if

https://www.nginx.com/resources/wiki/start/topics/depth/ifisevil/

cblcg
На сайте с 28.06.2012
Offline
232
#10
jano:

Может есть у кого список ботов?

Ahrefs|Linguee|SputnikBot|spbot|DigExt|Sogou|MJ12|majestic12|80legs|SISTRIX|Semrush|Crowsnest|CCBot|TalkTalk|PaperLiBot|peerindex|ia_archiver|Slurp|Aport|NING|JS-Kit|rogerbot|BLEXBot|MJ12bot|Twiceler|Baiduspider|Java|CommentReader|Yeti|discobot|BTWebClient|Tagoobot|Ezooms|igdeSpyder|AhrefsBot|Teleport|Offline|DISCo|netvampire|Copier|HTTrack|WebCopier|WebCollector

Вопрос - на сайт под ботом bing летит по 10-20 запросов в сек. Это может быть ктото косящий под него или реально он такой агрессивный может быть? Просто этой ПС ник не пользуется же. Трафика с нее также нет.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий