Подскажите, я не программист, в этом мало разбираюсь, как поставить в исключения сети 13238 и 208722 и как отключить IPV6 через api CF?
Переходы по ссылкам в основном из этих сетей: Metropolitan branch of PJSC MegaFon, JSC Rostelecom . Korporativniy Centr, YOTA - Moscow and Moskovskaya obl., North-West Branch of OJSC MegaFon Network, Mobile subscribers pool, Beeline-Moscow GPRS Firewall, Mobile TeleSystems, OJSC, MR North-West, но больше всего из первой в списке - Мегафона. Но с этой сети и реальные пользователи из поиска приходят.
Кждый день пара ботов из Германии с этой сети Hetzner Online GmbH заходят, как заблокировать эту сеть?
Добрый день. Подскажите, как можно заблокировать ботов? В htaccess заблокирована Биттерика. В CF вот такие правила:
1. Белые боты - Skip
(cf.client.bot) or (http.user_agent contains "Mail.RU_Bot") or (http.user_agent contains "; +http://yandex.com/bots") or (http.user_agent contains "StackRambler") or (ip.src eq мой айпи хостинга)
2. SSL/IPV6 - Block
(ip.src in {::/0} and not ip.geoip.asnum in {13238}) or (not ssl and not ip.geoip.asnum in {13238})
3. HTTP2+ - Block
(not http.request.version in {"HTTP/2" "HTTP/3" "SPDY/3.1"} and not ip.geoip.asnum in {13238}) or (http.referer eq "" and not ip.geoip.asnum in {13238})
По этим 3 правилам CF блокирует больше 2000 ботов в сутки. Есть еще правило 4 блокировать парсеры и правило 5 блокировать по странам, но за неделю ни одного заблокированного бота нет.
Не заблокированные боты заходят по ссылкам с других непонятных сайтов, по крайней мере такое показывает метрика, и она их считает реальными людьми. Но никаких ссылок на сайт на других сайтах быть не должно, и в вебмастере их нет. Реальные люди приходят на сайт только из поиска яндекса, но сейчас сайт скатился на вторую страницу в поиске и реальных посетителей 30-40 в сутки, а ботов по ссылкам 150-200, в итоге отказы примерно 10%, среднее время на сайте меньше минуты. Получается, что CF блокирует больше 2000, но все равно эти 150-200 содают печальную картину.
На 1 скриншоте боты как юзеры, это данные метрики без роботов. На скриншоте 2 в CF в это время вообще не было этих посетителей, в СF только те, кого он заблокировал. CF почему-то не видит этих посетителей вообще. Бред какой-то. Что можно с этим сделать? Как их можно заблокировать?
1. Убираете проверки по user agent (http.user_agent contains "; +http://yandex.com/bots") or (http.user_agent contains "StackRambler") и ставите в исключения сети 13238 и 208722.
2. Второе правило отключайте. Если хотите убрать IPV6 на сайте, то лучше отключите принудительно через api CF.
3. В третьем правиле я оставил проверку только пустого реферера, остальное считаю не актуальным.
По переходам по ссылкам на сайтах, рабочего решения нет. Можете посмотреть IP и AS сети эти визитов, если их не очень много, то добавьте эти сетки и IP в третье правило.
Нашел вот такой запрос. Футболки такие у меня есть, это считай брендовый запрос, но все равно странно выглядит
На запросы можете не обращать внимания. Накрутчики, чтобы обмануть ПС используют нейросеть для генерации уникальных ключей. Получается на каждый СЧ формируется еще пара сотен НЧ. Они конечно выглядят странно и никто в трезвой памяти такое вводить в поиск не будет.
Я раньше внимания не обращал, думая что какие то "недалекие" такие кривые запросы вводят, но потом проанализировав вебвизор за неделю нашел таких кривых НЧ на своем сайте, больше чем самый частотный ВЧ по России.
Ботнет и нейросети плодят миллионы "пустых" запросов, а Яндекс все эти данные хранит, сегментирует, анализирует... А потом еще в своих отчетах пишут об увеличении доли поиска по России...
Можно скачать бесплатную программу Xenu - https://home.snafu.de/tilman/xenulink.html
Она покажет все страницы сайта, ищем все страницы с http и меняем на https.
Возвращаюсь к вопросу. Сайт коммерческий, но есть раздел с инфо статьями. Боты упорно крутят инфо страницы, по каким то не реальным ключам, наверное через нейросеть сгенерированные. Я им выдаю капчу CF, но они все равно на них идут. Хотя процент прохождения 20%.
Вот какой смысл?
Поведение у юзеров и ботов всё-таки разное. Цели у накрутчиков могут быть не только обмануть Метрику, что касается сценариев - тут тоже всё индивидуально.
Я пишу десятки сценариев и на это уходит десятки часов. Как-то язык не поворачивается их называть примитивными. Как закончу рефакторинг своего рабочего алгоритма - скину вам общую визуализацию, посмотрите на общий объем рабочих поинтов, уверяю, это не 2-3 действия.
А какая еще может быть цель у ПФ ботов? Эмулировать действия пользователей, обманывая метрику-алгоритмы Яндекса, чтобы тем самым поднять в органике нужный сайт.
Понятно, что сценариев может быть огромное количество, но если кто то нашел как добиться поставленной цели в 2-3 действия, зачем ему выполнять остальные?
Это уже надстройки, они к тестовому анализу логов в целом не имеют отношения.
Так-то конечно, можно и свой Saas сервис написать. Но мы же просто анализируем текстовую информацию из лога, а там всё довольно скупо.
Никто и не говорит, что только по одному логу можно, что то понять. А вот анализирую массив, можно найти закономерности.
С помощью JS обработок можно быстрее обработать массив и отфильтровать нужные данные.
После того как будут готовы фингерпринты, уже можно все логи только по ним сигментировать.
Поведение у юзеров, у ботов - это сценарии и все они достаточно примитивные. Единственная цель - обмануть метрику, поэтому если это можно будет сделать в 2-3 действия, то сценарий на 20 действий никто делать не будет.
Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.
Товарищ на первой странице написал принцип вычисления ботов. Установка JS ловушек, по ним вычисляют спам сеть, анализируют по ней посещения и формирует фингерпринты.
Согласен с ним, что ботоводы не сильно заморачиваются со сценариями и все их можно вычислить по поведению и другим метрикам.
Остается только практическая реализация. Но тут помимо анализа логов нужен будет программист, который будет писать бэкенд.
Прочтите внимательней, ботные помойки не используют подмену реферера на поисковый трафик, только директ, так было год назад. Сейчас ситуация не изменилась, показатели в метрике в норме, на остальное пофиг...
Так это легко проверить, но нужны навыки программирования. Возьмите Ip диапазоны главной ботной помойки - Битерика, все заходы с этой сетки сохраняйте в отдельную таблицу, в итоге все заходы будут с пустым реферером. Данный анализ проводил год назад при трафике 20к/сут., хотя может сейчас что-то изменилось.
Я писал про спам из поисковых систем, причем тут директ трафик???
Битерика уже год назад полностью заблокирована.
Спам по поисковым запросам занес в таблицу, там более 100 разных AS сетей по всей России. Где есть моб провайдеры и хостинги.