Защита от ботов. NGINX limit_req + белый список яндекс на основе rDNS

D
На сайте с 28.06.2008
Offline
1114
#61

По прошествии 8 часов по протоколу 1.1 заблокировано чуть более 1000 запросов (0,3% от всего).

Надо заметить что это не весь протокол 1,1 а минус реальные поисковые боты и минус явные сканеры отсеянные по реферу.

Т.е. сегодня пробовал чистить тех кто прошли основной грубый фильтр и косили под реальных юзеров, не делали частых запросов и пытались вести себя культурно.

Важно: просмотрев статистику метрики за последний квартал значительно расширил локацию map $geoip_country_code для протокола HTTP/2.0. Прежде чем пользоваться ей - изучите свою статистику!

Неожиданно для меня 90% мусорного трафика из США. Вот топ ботов на сегодня у меня кол-во запросов / ip


115 52.29.26.11
82 54.172.209.166
78 178.158.247.138
58 5.61.41.104
53 52.166.132.198
51 199.16.157.182
47 52.178.38.104
44 52.178.222.249
44 52.178.222.111
44 52.178.151.184
[umka]
На сайте с 25.05.2008
Offline
456
#62

Большинство из штатов, потому что в штатах располагаются самые жирные "мусорохранилища" — Amazon, RackSpace, DigitalOcean и пр.

Dram:
53 52.166.132.198
47 52.178.38.104
44 52.178.222.249
44 52.178.222.111
44 52.178.151.184

Это же MSN

Лог в помощь!
D
На сайте с 28.06.2008
Offline
1114
#63

О спасибо, просто сервис которым я проверял IP не писал что это MSN, щас внесу их в белый спискок.

D
На сайте с 28.06.2008
Offline
1114
#64

А вот пример - 13.93.82.28 , написано Microsoft Corporation, а рефер такой

Mozilla/5.0 (Windows NT 5.1; U; zh-cn; rv:1.8.1) Gecko/20091102 Firefox/3.5.5

Это нормально? Почему не пишет что бот?

еще пример 52.169.88.181, написано Microsoft Corporation, а рефер такой

Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.0.5) Gecko/2008121622 Slackware/2.6.27-PiP Firefox/3.0

52.164.240.201, написано Microsoft Corporation, а рефер такой

Mozilla/1.22 (compatible; MSIE 10.0; Windows 3.1)

52.174.145.81, написано Microsoft Corporation, а рефер такой

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 8.02
[umka]
На сайте с 25.05.2008
Offline
456
#65
Dram:
А вот пример - 13.93.82.28 , написано Microsoft Corporation, а рефер такой

Это нормально? Почему не пишет что бот?

еще пример 52.169.88.181, написано Microsoft Corporation, а рефер такой

А вы думаете, что в сетях Майкрософт™©® только боты водятся? :)

У них ещё и какое-то количество живых людей работает. Делают виндовс, офис и пр.

D
На сайте с 28.06.2008
Offline
1114
#66

Ну че-то подозрительно сотни (а то и более 1000) запросов на мой скромный сайт от офисного планктона Майкрософта.... за пол дня....

[umka]
На сайте с 25.05.2008
Offline
456
#67
Dram:
Ну че-то подозрительно сотни (а то и более 1000) запросов на мой скромный сайт от офисного планктона Майкрософта....

Тогда остаётся два варианта:

1. Боты стали насколько умными, что прикидываются живыми посетителями

2. Часть айпишников сдали под прокси. Типа режим "Интернет-эксплорер Турбо"

:)

D
На сайте с 28.06.2008
Offline
1114
#68

Сорее второй вариант - в бан их!

D
На сайте с 07.11.2000
Offline
228
#69
Dram:
Я пробовал проверять куку _ym_isad которую ставит яндекс

Тестировал. Плохо на нее ориентироваться.

У многих юзеров нет этой куки - т.к. многие блокировщики рекламы лочат Метрику.

D
На сайте с 28.06.2008
Offline
1114
#70

Да, с кукой не вариант. Либо проверять вообще любую куку (но я так и не смог понять как правильно это записать) либо не использовать это.

У меня еще идея родилась.

HTTP/1.0 - выключен

HTTP/1.1 - лимитирован так что там фиг пролезешь

HTTP/2.0 - тут живые юзеры и сюда же придет нормальный кодер, через пол часика/час, когда поймет что ему мешает парсить ваш сайт. Да он тоже лимитирован, но значительно слабее, чтобы не мешать нормальным людям. И при желании за несколько дней можно вытянуть весь сайт.

Идея вот какая, на протоколе HTTP/2.0 если идет более

15 запросов в минуту + если более 500 в час - юзеру показывать страницу в гуглкапчей.

И пока не пройдет дальше не пускать.

Как это можно реализовать?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий