sagamorr

Рейтинг
237
Регистрация
12.10.2012
11

Можно скачать бесплатную программу Xenu - https://home.snafu.de/tilman/xenulink.html

Она покажет все страницы сайта, ищем все страницы с http и меняем на https.

Vladimir #:
Чего ее смотреть, если уже накрутили и оно упало? Назад поднять уже сложно.
Но, рекомендую посмотреть, если накручивают в плюс, и что  именно. Это более интересно

Возвращаюсь к вопросу. Сайт коммерческий, но есть раздел с инфо статьями. Боты упорно крутят инфо страницы, по каким то не реальным ключам, наверное через нейросеть сгенерированные. Я им выдаю капчу CF, но они все равно на них идут. Хотя процент прохождения 20%.

Вот какой смысл?

Антоний Казанский #:

Поведение у юзеров и ботов всё-таки разное. Цели у накрутчиков могут быть не только обмануть Метрику, что касается сценариев - тут тоже всё индивидуально.

Я пишу десятки сценариев и на это уходит десятки часов. Как-то язык не поворачивается их называть примитивными. Как закончу рефакторинг своего рабочего алгоритма - скину вам общую визуализацию, посмотрите на общий объем рабочих поинтов, уверяю, это не 2-3 действия.

А какая еще может быть цель у ПФ ботов? Эмулировать действия пользователей, обманывая метрику-алгоритмы Яндекса, чтобы тем самым поднять в органике нужный сайт.

Понятно, что сценариев может быть огромное количество, но если кто то нашел как добиться поставленной цели в 2-3 действия, зачем ему выполнять остальные?

Антоний Казанский #:

Это уже надстройки, они к тестовому анализу логов в целом не имеют отношения. 

Так-то конечно, можно и свой Saas сервис написать. Но мы же просто анализируем текстовую информацию из лога, а там всё довольно скупо.

Никто и не говорит, что только по одному логу можно, что то понять. А вот анализирую массив, можно найти закономерности.

С помощью JS обработок можно быстрее обработать массив и отфильтровать нужные данные.

После того как будут готовы фингерпринты, уже можно все логи только по ним сигментировать.

Антоний Казанский #:
Заморачиваются по разному, анализ поведения - это задача уже совсем другого порядка. Не парсинг текстовых данных.

Поведение у юзеров, у ботов - это сценарии и все они достаточно примитивные. Единственная цель - обмануть метрику, поэтому если это можно будет сделать в 2-3 действия, то сценарий на 20 действий никто делать не будет.

Антоний Казанский #:

Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.

Товарищ на первой странице написал принцип вычисления ботов. Установка JS ловушек, по ним вычисляют спам сеть, анализируют по ней посещения и формирует фингерпринты.

Согласен с ним, что ботоводы не сильно заморачиваются со сценариями и все их можно вычислить по поведению и другим метрикам.

Остается только практическая реализация. Но тут помимо анализа логов нужен будет программист, который будет писать бэкенд.

Kykapa4a #:

Прочтите внимательней, ботные помойки не используют подмену реферера на поисковый трафик, только директ, так было год назад.  Сейчас  ситуация не изменилась, показатели в метрике в норме, на остальное пофиг...

Это боты идущие из поиска Яндекса, не подмена реферера.  В метрике они как юзеры определяются. Но по поведению, по ключам, по CTR - это 100% боты.
Kykapa4a #:

Так это легко проверить, но нужны навыки программирования. Возьмите Ip диапазоны главной ботной помойки - Битерика, все заходы с этой сетки сохраняйте в отдельную таблицу, в итоге все заходы будут с пустым реферером. Данный анализ проводил год назад при трафике 20к/сут., хотя может сейчас что-то изменилось.

Я писал про спам из поисковых систем, причем тут директ трафик???

Битерика уже год назад полностью заблокирована.

Спам по поисковым запросам занес в таблицу, там более 100 разных AS сетей по всей России. Где есть моб провайдеры и хостинги.

NoMoreContent #:

Ну так они и не совсем мои. И мало кому интересны. 

Интересны наверно тем, кто работает с другой стороны. Вот прямо сейчас думал, что есть простые и очевидные подходы, с помощью которых можно сильно осложнить жизнь антифрод-командам. Написать их - так кто-то запостит на реддите и жизнь многих людей превратится в ад из атак.

А grep-ами поиграть бывает интересно, да. Для себя. Там теории на час изучения и можно узнать из своих логов что-то полезное.

Если будут защищать от ПФ ботов, то будет интересно многим. Т.к есть CF, антибот и прочие попапы, которые очень хочется использовать.
NoMoreContent #:

У них есть фингерпринты, типичные баги в обработке подобранных для них JS-ловушек и поведение в основном странное. Расставляются и JS и логические ловушки. Например, у пользователей есть стандартный паттерн поведения и стабильный процент вероятности следущего действия.

Например, после "Действия А" в 67-74% случаев идёт "Действие Б". Ботоводы, даже работающие прицельно, не хотят настолько напрягаться. Потому группируем процент последовательности по AS-кам, а чаще даже по двум первым октетам IP и если какая-то сеть выбивается из статистики идём руками делать grep-ы и смотреть кто и что начал делать. Почти всех "клиентов" аналитики знают в их "лицо", по паттернам поведения и инструментам. Редко бывает кто-то новый. 

А вы блокируете ботов уже непосредственно на сайте, т.е уже после посещения? До загрузки метрики вычислить бота наверное невозможно?

Может быть вам ваши наработки в софт монетизировать?

NoMoreContent #:
По серверным логам смотрим в основном атаки или попытки разнообразного Fraud-а. Также в страницы встраиваются антифрод-маячки, которые незаметно отправляют на бэкенд сигналы для подсчета ботного рейтинга конкретного посетителя, чтобы отсеять значительную часть виртуальных браузеров, селениумов, зеннопостеров и подобных вещей.

Самое простое, что можно сделать - это открыть лог с помощью

А каким образом вы вычисляете виртуальных браузеров, селениумов, зеннопостеров и подобных вещей?

Только по закономерностям? Типа каждый сотый визит на какую то страницу идет с определенным юзер агентом и с определенного устройства?

Всего: 1959