Dram

Рейтинг
1115
Регистрация
28.06.2008

CX41 - https://www.hetzner.com/cloud-ru

18,76 € в месяц

0,031 € / час

4 vCPU

16 ГБ RAM

160 ГБ Disk space

20 ТБ Traffic

такой впс в облаке держит 70.000 юзеров в день (7 сайтов на Джумле). А вот график нагрузки на проц, мускуль и память (ну она не показательна, я ее просто под кеш разный отдал)

P.S. эти же сайты пару дней во время перезда висели на CX21 за 6 евро и ничего :))) правда нагрузка была под 80% на проц и памяти не хватало...

png cpu-week.png
png memory-week.png
png mysql_queries-week.png

Есть еще вариант - сайт на обычном HTTP и блоки видны в мобильных девайсах.

Тогда их встраивает мобильный оператор, тоже известная проблема.

Личится переходом на HTTPS

По моим наблюдениям, пока по HTTP/2.0 ботов менее 0,1%, поэтому все проверки у меня на HTTP/1.1, а HTTP/2.0 я пропускаю свободно, просто торможу через лимит зон на всяк пожарный

valkareff:
Не работаю с wordpress, joomla и drupal.

Как-то не сочетается у меня в голове "кодер хорошего уровня" и неспособность/нежелание разобраться в современных, популярных движках.

Как я уже писал выше, более чем за год на 50-80.000 юзеров в день я дополнил этот список всего дважды.

Ну а сравнивать быстроту и простоту решений на nginx и php даже смысла нет, тем более что мои примеры бесплатны...

Bot Inspector:
да в принципе, если боты не кладут сайт и не копипастят его, то можно и забить на них.

А есть третий вариант? :))) Они или кладут или че-то тырят с вашего сайта и лично я с этим мериться не намерен!

Кому интересно - вот топ 10 хитроботов, маскирующихся под ботов Гугла и Яндекса, но таковыми не являющимеся. (слева кол-во запросов за 4 дня)


407-----78.84.201.122
374-----176.9.137.118
214-----13.77.169.115
19-----185.89.101.58
17-----91.243.93.227
17-----91.243.93.176
17-----91.216.3.51
17-----79.133.106.141
17-----5.101.218.25
17-----5.101.218.120
foxi:
Dram, если по правильному - надо отрубать руки по колено тем, кто предлагает создавать вот такие вот белые списки поисковиков в nginx.

А теперь цитрую ваш же сайт

Техническая суть скрипта: «Белые» боты - это Яндекс, Гугл, Мейл, Бинг - которые уже есть в кофиге (также можно добавлять свох ботов и IP), они без препятствий попадают на сайт и никак не замечают присутствия скрипта автобота. Это сделано согласно официальной документации и рекомендации этих поисковиков:

Т.е вам собирать белые списки можно - а мне руки отрубать? :))))

Пользуюсь этим списком более года - траф только растет. Сайты добавлены в кабинеты вебмастеров гугла и яндекса и ниразу не было сообщений о проблемах сканирования.

У меня есть отдельные логи для ботов поисковиков - так самый посещаемый сайт сканируют чуть ли не каждую секунду и в этом логе только 200-е ответы.

У меня есть так же отдельный лог для "возможно бот поисковика" - где собираются запросы от подсетей НЕ посиковиков, но с юзерагентом поисковиков.

Их я пока иногда проверяю вручную, и за год нашел еще парочку реальных IP поисковых ботов и добавил в белый список.

А вскоре я автоматизирую этот процесс и вообще не буду туда лазить.

P.S. аа ну все понятно :))) увидел вашу подпись.... мешаю бизнесу да? :)))

Не вижу смысла засирать аптейблс.

Где я на 100% уверен что бот - отдаю 444 ошибку (просто разрываю соединение, nginx этого действа вообще не чувствует, это совершенно его не нагружает.

Например

map $http_user_agent $bad_useragent {
default 0;
~*ia_archiver 1;
~*Curl 1;
~*libwww 1;
~*BLEXBot 1;
~*SBooksNet 1;
~*MJ12bot 1;
~*Java 1;
~*NTENTbot 1;
~*GetIntent 1;
~*SemrushBot 1;
~*HybridBot 1;
~*AhrefsBot 1;
~*SeznamBot 1;
~*DeuSu 1;
~*GrapeshotCrawler 1;
~*SentiBot 1;
~*default 1;
~*Virusdie 1;
~*WordPress 1;
~*WhatsApp 1;
~*SeopultContentAnalyzer 1;
~*WinHTTP 1;
~*MauiBot 1;
~*weborama 1;
}

или

map "$whitelist:$server_protocol" $bad_bot {
default 0;
"0:HTTP/1.0" 1;
}

Таким сразу

if ($bad_useragent) {
return 444;
}
if ($bad_bot) {
return 444;
}

остальных торможу через limit_req_zone или отправляю на гугл капчу.

P.S. вот Оптимизайка предлагал еще одно оригинальное решение /ru/forum/958253

если в кратце - блокируются через апсет подсети всех крупных датацентров мира. Ведь 90% мусорного трафика идет как раз с разных серверов (не с домашних компов).

Я юзал его решение почти год - полет был нормальный рекомендую.

Всего: 6928