Ловля ботов из РСЯ – делюсь лайфхаком

Михаил
На сайте с 02.03.2007
Offline
189
#51

Очередное любопытное наблюдение за поведением ботов, делюсь на случай, если кто-то не в курсе и кому-то пригодится.

Вчера при просмотре визитов через Вебвизор в Яндекс-Метрике с интересом наблюдал, как один из ботов зашёл на сайт, получил «занавеску» – и к моему изумлению, попытался закрыть её нажатием на ссылку «Закрыть это окно»! Для кого как, а для меня это нечто новое.

Теперь подробно по деталям (скрин для наглядности внизу поста).

Откуда пришёл бот? Из РСЯ, из Директа – мы размещаемся там только в поисковой выдаче поверх органики, 75-80% визитов оттуда – боты.

Почему бот? Потому что он продолжил просмотр страницы сквозь «занавеску», не сумев её закрыть – скролл, перемещение курсора и т. п. Кроме того, он изображал внимательное чтение текста описания, который по сути представляет собой всего лишь SEO-галиматью и реальных людей мало интересует (в отличие от технических характеристик товара).

Почему бот попытался закрыть «занавеску»? Потому что слова «закрыть это окно» оформлены в виде ссылки «a href="#"».

Почему он не смог закрыть «занавеску»? Потому что ссылка пустая, с пустым якорем «#», а закрытие окна производится в JavaScriptчерез обработку JQuery, с блокировкой перехода при помощи «preventDefault».

Занавеска на странице

У меня всё.

Вот видишь, Алиса, что нужно бежать со всех ног, чтобы оставаться на месте! А чтобы куда-нибудь добраться – нужно бежать вдвое быстрее!
[Удален]
#52
Михаил #:

Очередное любопытное наблюдение за поведением ботов, делюсь на случай, если кто-то не в курсе и кому-то пригодится.

Вчера при просмотре визитов через Вебвизор в Яндекс-Метрике с интересом наблюдал, как один из ботов зашёл на сайт, получил «занавеску» – и к моему изумлению, попытался закрыть её нажатием на ссылку «Закрыть это окно»! Для кого как, а для меня это нечто новое.

Теперь подробно по деталям (скрин для наглядности внизу поста).

Откуда пришёл бот? Из РСЯ, из Директа – мы размещаемся там только в поисковой выдаче поверх органики, 75-80% визитов оттуда – боты.

Почему бот? Потому что он продолжил просмотр страницы сквозь «занавеску», не сумев её закрыть – скролл, перемещение курсора и т. п. Кроме того, он изображал внимательное чтение текста описания, который по сути представляет собой всего лишь SEO-галиматью и реальных людей мало интересует (в отличие от технических характеристик товара).

Почему бот попытался закрыть «занавеску»? Потому что слова «закрыть это окно» оформлены в виде ссылки «a href="#"».

Почему он не смог закрыть «занавеску»? Потому что ссылка пустая, с пустым якорем «#», а закрытие окна производится в JavaScriptчерез обработку JQuery, с блокировкой перехода при помощи «preventDefault».


У меня всё.

Боты бывают разные, в частности, я фиксировал ботов, которые пользовались поиском по сайту и вообще ведут себя довольно человекоподобно. Все зависит от качества самого бота. Простейшие боты да, подобными способами можно определить.

Но проблема больше не в том, как определить визит бота, а как в принципе избежать показов рекламы ботам.
Если реклама по стратегии оплаты за клик, то мы оплачиваем клик в момент перехода бота по рекламе, то есть даже если мы определим, что деньги за клик списались за бота, то оплата уже произошла. Можно бороться с техподдержкой, но по моему опыту возвращают хорошо если 20-30% от реального слива бюджета.

Поэтому в РСЯ в последнее время запускаю только с оплатой за конверсии и там да, уже можно ставить разные ловушки, чтобы платить только за реальные визиты и конверсии.
Из этой же серии, не плохо работал следующий способ: добавляем в форму поле и скрываем его от пользователя. Боты, которые не обращают внимание на css, видят поле и его заполняют, соответственно, дальше проверяем поля и если заполнено скрытое поле, то форма не уходит. Если же это был реальный пользователь, то он скрытое поле не видит, соответственно форма спокойно уходит.

Еще неплохо помогает добавление нескольких целей в Метрику: глубина скролла, время активного визита, проверка качества площадок и подобных.

R
На сайте с 06.02.2022
Offline
53
#53
Михаил #:

Очередное любопытное наблюдение за поведением ботов

Приветствую. Есть еще что интересненькое? Вы после выявления ботов их в .htaccess просто баните?

Михаил
На сайте с 02.03.2007
Offline
189
#54
ronibestplay #:

Приветствую. Есть еще что интересненькое? Вы после выявления ботов их в .htaccess просто баните?

Нет, конечно. Выдача элементарнейшей HTML-страницы с сообщением типа «436 Temporary Blocked for Violation». Без интеграции сообщения в интерфейс, во избежание запуска стандартных процедур формирования элементов страницы, предназначенной для живых посетителей, и соответствующих серверных затрат.  И да, в качестве кода ответа выбираю заведомо несуществующие, собственноручно изобретённые – они фиксируются и впоследствии легко ищутся в аналитике, а для бота не имеет никакого значения, какая конкретно цифра предваряет начало его эротического путешествия.

Ах да, интересненькое. Невидимые кнопки, конечно. Взято отсюда, с Сёрча. Боты такие элементы любят и охотно нажимают. Последствия нажатия у меня на сайтах всё те же, эротического характера.

R
На сайте с 06.02.2022
Offline
53
#55
Михаил #:
Выдача элементарнейшей HTML-страницы с сообщением типа «436 Temporary Blocked for Violation».

Я так понимаю если в серверной части только с php дружу мне такого не сделать? Я маленько по другому их осаживаю. Отправляю в лог все ip, далее на странице сделал скрипт который считает общее количество и сортирует их. Далее вручную смотрю откуда их гора и блочу по маске то, что мне не нравиться. Также реализовал кнопку которая удалит их из лог.txt, после обновления страницы они улетают.

Может я просто чего то не понял в вашем подходе, с начала топика то понятно, а вот дальше...Вообще если я на один город работаю и для директа у меня отдельный сайт, может есть смысл все города кроме своего забанить?

R
На сайте с 06.02.2022
Offline
53
#56
Сайты на хостинге висят я особо с настройками не парюсь, по ftp все делаю на компе. Видится так, что код отдавать можно тоже через htaccess
Delysid
На сайте с 27.05.2019
Offline
263
#57
Михаил #:
Очередное любопытное наблюдение за поведением ботов, делюсь на случай, если кто-то не в курсе и кому-то пригодится.

Эти боты даже иконку сайта не грузят, их вычислять нет проблемы..

Там у ботовода ошибка или сделано специально. Он вместо иконки сайта повторный запрос по ссылке делает а иконку не грузит.

(это про те боты с мобильных ботоферм которые ПФ портят а потом рекламу скликивают).

Михаил
На сайте с 02.03.2007
Offline
189
#58
ronibestplay #:

Я так понимаю если в серверной части только с php дружу мне такого не сделать? Я маленько по другому их осаживаю. Отправляю в лог все ip, далее на странице сделал скрипт который считает общее количество и сортирует их. Далее вручную смотрю откуда их гора и блочу по маске то, что мне не нравиться. Также реализовал кнопку которая удалит их из лог.txt, после обновления страницы они улетают.

Может я просто чего то не понял в вашем подходе, с начала топика то понятно, а вот дальше...Вообще если я на один город работаю и для директа у меня отдельный сайт, может есть смысл все города кроме своего забанить?

У меня сделано именно на PHP. Логика примерно такая: каждый визит проходит анализ из множества составляющих: в первую очередь по «белому» и «чёрному» спискам (на этом этапе сразу отсеивается из дальнейшего анализа большое количество визитов – Битерика, боты поисковых систем и пр.). В этих списках нет отдельных IP – как минимум диапазоны, UserAgent ботов и пр. Далее анализ продолжается по десятку дополнительных алгоритмов, к примеру, отсев любителей сканирования служебных (и заведомо отсутствующих на сайте) URL типа «/wp-content/» или «sitecrash.php», «дятлов» с тремя-четырьмя и более запросами страниц в секунду, меняющих свой UserAgent с сохранением IP-адреса в процессе визитов «фантомасов», все эти визиты также записываются. В эту же процедуру фильтрации входят и несвойственные человеку взаимодействия – просмотр страниц сквозь «занавеску» или нажатие невидимых кнопок. А чуть ранее, сразу после отсева по «чёрно-белым» спискам, производится поиск «рецидивистов» – это посетители, чьё поведение уже неоднократно совпало с паттерном одного из фильтрующих алгоритмов (то есть после разовой предупредительной выдачи 404 вместо страницы согласно одному из алгоритмов) бот продолжил в прежнем ключе – в этом случае вместо очередного 404 гость блокируется уже на продолжительное время, от часа до суток (выбор срока блокировки зависит от количества совпадений с паттернами).  Время от времени добавляются новые алгоритмы. Задача в том, чтобы всё это происходило по возможности автономно, без систематического вмешательства человека.

Не исключаю, что здесь, на Сёрче, и ботоводы лазают. В таком случае им будет полезно знать, что невидимые кнопки я люблю называть как-нибудь вроде "welcome_to_begin", а мешающие просмотру занавески – "never_press_for_blowing_whole_site" (и да, у меня в запасе много других интересных наименований): боты обычно с такими фортелями не справляются и либо нажимают то, что не надо, либо наоборот, потому как шаг в сторону от стандартных методов и названий – и они уже не в курсе, что и как с этим всем делать.

Как-то так.

Delysid
На сайте с 27.05.2019
Offline
263
#59
Михаил #:
Не исключаю, что здесь, на Сёрче, и ботоводы лазают.

Лазают, лазают. Они тут.  😀

Но вы от техники отошли, мне всё равно что они лично мне с отказами шпарят. Я тупо все отказы стираю в метрике. 

Упс. вот это мозг забурлил. 🤣

R
На сайте с 06.02.2022
Offline
53
#60
Михаил #:
У меня сделано именно на PHP. Логика примерно такая:

Хороший ответ спасибо. Очень подробно.  То есть вы это реализовали на чистом php, в том числе и выдачу страниц этому черному списку, я так понял. По сути на базе это 4-5 файлов, изначально со страницы парсится ip и записывает в лог, но не в txt как я делаю, а в php обработку. По сути они даже не хранятся, а распихиваются в white и black list откуда и получают указания какую страницу отображать. Шторки и невидимые кнопки просто служат неким триггером для отправки в эти файлы...так идейка огонь конечно. Блин только закончил сложный калькулятор, как же долго я буду это делать, представить боюсь)

Еще раз постулат перечитал, я имел ввиду что белые адреса и все кто заходит на сайт у вас не храниться, есть условно черный список, кто сразу страницу с пипиркой получает, а белые идут в обработку.  Я так понимаю вы месяца 3-4 этим занимаетесь, стал чище трафик?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий