Можно скачать бесплатную программу Xenu - https://home.snafu.de/tilman/xenulink.html
Она покажет все страницы сайта, ищем все страницы с http и меняем на https.
Возвращаюсь к вопросу. Сайт коммерческий, но есть раздел с инфо статьями. Боты упорно крутят инфо страницы, по каким то не реальным ключам, наверное через нейросеть сгенерированные. Я им выдаю капчу CF, но они все равно на них идут. Хотя процент прохождения 20%.
Вот какой смысл?
Поведение у юзеров и ботов всё-таки разное. Цели у накрутчиков могут быть не только обмануть Метрику, что касается сценариев - тут тоже всё индивидуально.
Я пишу десятки сценариев и на это уходит десятки часов. Как-то язык не поворачивается их называть примитивными. Как закончу рефакторинг своего рабочего алгоритма - скину вам общую визуализацию, посмотрите на общий объем рабочих поинтов, уверяю, это не 2-3 действия.
А какая еще может быть цель у ПФ ботов? Эмулировать действия пользователей, обманывая метрику-алгоритмы Яндекса, чтобы тем самым поднять в органике нужный сайт.
Понятно, что сценариев может быть огромное количество, но если кто то нашел как добиться поставленной цели в 2-3 действия, зачем ему выполнять остальные?
Это уже надстройки, они к тестовому анализу логов в целом не имеют отношения.
Так-то конечно, можно и свой Saas сервис написать. Но мы же просто анализируем текстовую информацию из лога, а там всё довольно скупо.
Никто и не говорит, что только по одному логу можно, что то понять. А вот анализирую массив, можно найти закономерности.
С помощью JS обработок можно быстрее обработать массив и отфильтровать нужные данные.
После того как будут готовы фингерпринты, уже можно все логи только по ним сигментировать.
Поведение у юзеров, у ботов - это сценарии и все они достаточно примитивные. Единственная цель - обмануть метрику, поэтому если это можно будет сделать в 2-3 действия, то сценарий на 20 действий никто делать не будет.
Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.
Товарищ на первой странице написал принцип вычисления ботов. Установка JS ловушек, по ним вычисляют спам сеть, анализируют по ней посещения и формирует фингерпринты.
Согласен с ним, что ботоводы не сильно заморачиваются со сценариями и все их можно вычислить по поведению и другим метрикам.
Остается только практическая реализация. Но тут помимо анализа логов нужен будет программист, который будет писать бэкенд.
Прочтите внимательней, ботные помойки не используют подмену реферера на поисковый трафик, только директ, так было год назад. Сейчас ситуация не изменилась, показатели в метрике в норме, на остальное пофиг...
Так это легко проверить, но нужны навыки программирования. Возьмите Ip диапазоны главной ботной помойки - Битерика, все заходы с этой сетки сохраняйте в отдельную таблицу, в итоге все заходы будут с пустым реферером. Данный анализ проводил год назад при трафике 20к/сут., хотя может сейчас что-то изменилось.
Я писал про спам из поисковых систем, причем тут директ трафик???
Битерика уже год назад полностью заблокирована.
Спам по поисковым запросам занес в таблицу, там более 100 разных AS сетей по всей России. Где есть моб провайдеры и хостинги.
Ну так они и не совсем мои. И мало кому интересны.
Интересны наверно тем, кто работает с другой стороны. Вот прямо сейчас думал, что есть простые и очевидные подходы, с помощью которых можно сильно осложнить жизнь антифрод-командам. Написать их - так кто-то запостит на реддите и жизнь многих людей превратится в ад из атак.
А grep-ами поиграть бывает интересно, да. Для себя. Там теории на час изучения и можно узнать из своих логов что-то полезное.
У них есть фингерпринты, типичные баги в обработке подобранных для них JS-ловушек и поведение в основном странное. Расставляются и JS и логические ловушки. Например, у пользователей есть стандартный паттерн поведения и стабильный процент вероятности следущего действия.
Например, после "Действия А" в 67-74% случаев идёт "Действие Б". Ботоводы, даже работающие прицельно, не хотят настолько напрягаться. Потому группируем процент последовательности по AS-кам, а чаще даже по двум первым октетам IP и если какая-то сеть выбивается из статистики идём руками делать grep-ы и смотреть кто и что начал делать. Почти всех "клиентов" аналитики знают в их "лицо", по паттернам поведения и инструментам. Редко бывает кто-то новый.
А вы блокируете ботов уже непосредственно на сайте, т.е уже после посещения? До загрузки метрики вычислить бота наверное невозможно?
Может быть вам ваши наработки в софт монетизировать?
Самое простое, что можно сделать - это открыть лог с помощью
А каким образом вы вычисляете виртуальных браузеров, селениумов, зеннопостеров и подобных вещей?
Только по закономерностям? Типа каждый сотый визит на какую то страницу идет с определенным юзер агентом и с определенного устройства?