- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Очень жаль, поле для маневров сильно сужается.
Так как много из этих IP российские - геоайпи тут не поможет, можно попробовать посмотреть будут ли попадать эти запросы в лог без куков
Добавьте в секцию http {
geo $whitelist {
default 0;
# ip server
АЙПИ_ВАШЕГО_СЕРВЕРА 1;
# боты google
64.68.80.0/21 1;
64.233.0.0/16 1;
66.102.0.0/20 1;
72.14.192.0/18 1;
209.85.128.0/17 1;
216.239.32.0/19 1;
66.249.0.0/16 1;
104.154.0.0/16 1;
# боты yandex
77.88.0.0/18 1;
87.250.224.0/19 1;
84.201.158.0/24 1;
93.158.0.0/16 1;
95.108.128.0/17 1;
213.180.192.0/19 1;
141.8.0.0/16 1;
130.193.0.0/16 1;
5.255.0.0/16 1;
178.154.0.0/16 1;
37.9.0.0/16 1;
37.140.0.0/16 1;
5.45.207.0/24 1;
# mail.ru
217.69.0.0/16 1;
94.100.0.0/16 1;
95.163.255.0/24 1;
# bingbot-msn
40.77.0.0/16 1;
207.46.0.0/16 1;
65.52.0.0/14 1;
157.55.0.0/16 1;
131.253.0.0/16 1;
# Yahoo
68.180.0.0/16 1;
67.195.0.0/16 1;
69.147.64.0/18 1;
72.30.0.0/16 1;
74.6.0.0/16 1;
63.250.0.0/16 1;
98.139.0.0/16 1;
206.190.34.0/24 1;
# sputnik
5.143.0.0/16 1;
# opera-mini.net
82.145.0.0/16 1;
107.167.96.0/19 1;
185.26.180.0/23 1;
37.228.104.0/22 1;
37.228.111.128/26 1;
141.0.0.0/16 1;
# TelegramBot
149.154.167.0/24 1;
# Applebot
17.142.0.0/24 1;
# боты Rambler
81.19.64.0/19 1;
81.19.78.0/24 1;
# VK
87.240.169.0/24 1;
}
map $http_cookie $cookies {
default 0;
~*(.+) 1;
}
map "$whitelist:$server_protocol:$cookies" $nocookies {
default 0;
"0:HTTP/1.1:0" 1;
}
далее в секцию server {
И смотрите этот лог. Если все ваши товарищи там - уже можно обрубать.
Лично у меня на 50.000 трафика в этот лог попали вчера 4000 IP, я их глазками посмотрел, пробил вручную несколько десятков - это боты на 99%
Но я их не обрубаю, а при первом же запросе отправляю на гугл капчу (мне мой кодер написал решение на PHP.
Так вот из этих 4000 капчу прошли 21 юзер.
Так же в этом логе практически нет запросов к статике - css, js, которые делают нормальные юзеры, что так же показательно.
2. Вариант - более мягкий.
Сделать 2 лога, 1-й из которых будет собирать все запросы, а второй только к статике. Далее парсим оба лога и тех кто не запрашивает статику - (при условии что они не из подсетей поисковиков) объявляем подозрительными и уже только для них придумываем еще проверку.
Вы знаете свой проект, знаете какая активность в какие разделы нормальна, а какая нет.
P.S. введение https +http2 позволяет строить конструкции с учетом протокола и это сразу же обрубает 95% ботов. Все они в подавляющем большинстве лезут по протоколу HTTP/1.1
У меня тоже боты прут. Причем все сайты забугорные - а боты прут с России в основном.
Я пытался бороться, потом мои силы и терпение иссякли - короче победили боты.
Просто забил на них - пускай сканируют - такое время настало.
Если у меня их куча, а как тогда у людей с большими, серьезными проектами?
Там боты прут как саранча наверное.
У меня тоже боты прут. Причем все сайты забугорные - а боты прут с России в основном.
Я пытался бороться, потом мои силы и терпение иссякли - короче победили боты..
В вашей ситуации вообще очень просто отбиться.
Берете формируете белый список как я показывал выше, далее устанавливаете geoip и подключаете его, указывая страны из которых не хотите видеть трафик
map $geoip_country_code:$whitelist:$server_protocol $allowed_country {
default yes;
"DE:0:HTTP/1.1" no;
"NL:0:HTTP/1.1" no;
"FR:0:HTTP/1.1" no;
"CA:0:HTTP/1.1" no;
"US:0:HTTP/1.1" no;
"GB:0:HTTP/1.1" no;
"PL:0:HTTP/1.1" no;
"ES:0:HTTP/1.1" no;
"CN:0:HTTP/1.1" no;
"EG:0:HTTP/1.1" no;
"IN:0:HTTP/1.1" no;
"IT:0:HTTP/1.1" no;
"JP:0:HTTP/1.1" no;
"RO:0:HTTP/1.1" no;
"TW:0:HTTP/1.1" no;
}
И в секцию server { нужного хоста
return 444;
}
Но повторюсь - у меня http2 и 90% трафика идет по нему, по HTTP/1.1 лезут в основном боты, поэтому мне удобно их отсеивать.
Dram, вы собираете статистику и потом через iptables на капчу? Если такие объемов ботов, то наверно ipшников уже не одна сотня тысяч?
Не вижу смысла засирать аптейблс.
Где я на 100% уверен что бот - отдаю 444 ошибку (просто разрываю соединение, nginx этого действа вообще не чувствует, это совершенно его не нагружает.
Например
default 0;
~*ia_archiver 1;
~*Curl 1;
~*libwww 1;
~*BLEXBot 1;
~*SBooksNet 1;
~*MJ12bot 1;
~*Java 1;
~*NTENTbot 1;
~*GetIntent 1;
~*SemrushBot 1;
~*HybridBot 1;
~*AhrefsBot 1;
~*SeznamBot 1;
~*DeuSu 1;
~*GrapeshotCrawler 1;
~*SentiBot 1;
~*default 1;
~*Virusdie 1;
~*WordPress 1;
~*WhatsApp 1;
~*SeopultContentAnalyzer 1;
~*WinHTTP 1;
~*MauiBot 1;
~*weborama 1;
}
или
default 0;
"0:HTTP/1.0" 1;
}
Таким сразу
return 444;
}
if ($bad_bot) {
return 444;
}
остальных торможу через limit_req_zone или отправляю на гугл капчу.
P.S. вот Оптимизайка предлагал еще одно оригинальное решение /ru/forum/958253
если в кратце - блокируются через апсет подсети всех крупных датацентров мира. Ведь 90% мусорного трафика идет как раз с разных серверов (не с домашних компов).
Я юзал его решение почти год - полет был нормальный рекомендую.
Dram, если по правильному - надо отрубать руки по колено тем, кто предлагает создавать вот такие вот белые списки поисковиков в nginx. Потому что списки уже сейчас далеко не полные, а "завтра" они будут еще более не актуальные и несущие больше вреда сайту чем пользы, с таким подходом можно хостить сайт на локалхосте выключенного компа, тогда точно никакие спамеры не зайдут.
Пользуюсь этим списком более года - траф только растет. Сайты добавлены в кабинеты вебмастеров гугла и яндекса и ниразу не было сообщений о проблемах сканирования.
У меня есть отдельные логи для ботов поисковиков - так самый посещаемый сайт сканируют чуть ли не каждую секунду и в этом логе только 200-е ответы.
У меня есть так же отдельный лог для "возможно бот поисковика" - где собираются запросы от подсетей НЕ посиковиков, но с юзерагентом поисковиков.
Их я пока иногда проверяю вручную, и за год нашел еще парочку реальных IP поисковых ботов и добавил в белый список.
А вскоре я автоматизирую этот процесс и вообще не буду туда лазить.
P.S. аа ну все понятно :))) увидел вашу подпись.... мешаю бизнесу да? :)))
Dram, яндекса у тебя далеко не все подсети. В зависимости от того в какой стране расположен сайт - на него яндекс боты могут ходить из DE NL US стран.
Dram, если по правильному - надо отрубать руки по колено тем, кто предлагает создавать вот такие вот белые списки поисковиков в nginx.
А теперь цитрую ваш же сайт
Т.е вам собирать белые списки можно - а мне руки отрубать? :))))
В вашей ситуации вообще очень просто отбиться.
Берете формируете белый список как я показывал выше, далее устанавливаете geoip и подключаете его, указывая страны из которых не хотите видеть трафик
Мои клиенты не хотят вырубать страны полностью. К ним многие покупатели обращаются заранее поискав из своих стран (перед поездкой)
Короче поставил счетчики - statcounter ком
Вообще перестал ботов видеть :)