В вашей ситуации вообще очень просто отбиться.
Берете формируете белый список как я показывал выше, далее устанавливаете geoip и подключаете его, указывая страны из которых не хотите видеть трафик
И в секцию server { нужного хоста
Но повторюсь - у меня http2 и 90% трафика идет по нему, по HTTP/1.1 лезут в основном боты, поэтому мне удобно их отсеивать.
Очень жаль, поле для маневров сильно сужается.
Так как много из этих IP российские - геоайпи тут не поможет, можно попробовать посмотреть будут ли попадать эти запросы в лог без куков
Добавьте в секцию http {
далее в секцию server {
И смотрите этот лог. Если все ваши товарищи там - уже можно обрубать.
Лично у меня на 50.000 трафика в этот лог попали вчера 4000 IP, я их глазками посмотрел, пробил вручную несколько десятков - это боты на 99%
Но я их не обрубаю, а при первом же запросе отправляю на гугл капчу (мне мой кодер написал решение на PHP.
Так вот из этих 4000 капчу прошли 21 юзер.
Так же в этом логе практически нет запросов к статике - css, js, которые делают нормальные юзеры, что так же показательно.
2. Вариант - более мягкий.
Сделать 2 лога, 1-й из которых будет собирать все запросы, а второй только к статике. Далее парсим оба лога и тех кто не запрашивает статику - (при условии что они не из подсетей поисковиков) объявляем подозрительными и уже только для них придумываем еще проверку.
Вы знаете свой проект, знаете какая активность в какие разделы нормальна, а какая нет.
P.S. введение https +http2 позволяет строить конструкции с учетом протокола и это сразу же обрубает 95% ботов. Все они в подавляющем большинстве лезут по протоколу HTTP/1.1
1. У вас https + http2 ? вы не ответили
2. К этим php файлам нормальные юзеры обращаются или обращение к ним напрямую уже не нормально?
Тем что таких ботов от общего числа - 0,5%.
Но все равно - нужно видеть запросы, чтобы понять как их отбить.
Покажите пример запросов из лога. Если у вас сайт на https + http2, то отсечь ботозапросы ооочень просто средствами Nginx
если просто http или https без http2 - тоже можно, но будет сложнее
У меня 7 видов проверки - фиг пролезут.
Мне не реалтайм, проверка раз в сутки нескольно десятков айпи
Не видел ботов проходящих гугл капчу.
2 часа наблюдей на посещаемом сайте показали что в вышенаписанный мап попадают 99% ботов и единично люди у которых куки отключены.
Всех этих персонажей уже средставами пхп я отправляю на гугл капчу
Вроде у меня получилось выделить в отдельный лог тех кто лезет не из подсетей поисковиков по протоколу 1,1 и у которых нет куки
продолжаю наблюдение