Ловля ботов из РСЯ – делюсь лайфхаком

R
На сайте с 06.02.2022
Offline
41
#61
Михаил #:
Не исключаю, что здесь, на Сёрче, и ботоводы лазают
На этот счет к слову сомневаюсь. Вряд ли это какие то сторонние сервисы, это по любому родные яндекса боты самописные. Был же кстати какой то слив на 50 гб всех яндекс заготовок, думаю там при желании базовые шаблоны этой хрени всей валяются. Сами они по форумам не ходят, аля Роман Кузьмин который там че то передает, или как там его, ну это не смешно даже...
Михаил
На сайте с 02.03.2007
Offline
174
#62
ronibestplay #:

Хороший ответ спасибо. Очень подробно.  То есть вы это реализовали на чистом php, в том числе и выдачу страниц этому черному списку, я так понял. По сути на базе это 4-5 файлов, изначально со страницы парсится ip и записывает в лог, но не в txt как я делаю, а в php обработку. По сути они даже не хранятся, а распихиваются в white и black list откуда и получают указания какую страницу отображать. Шторки и невидимые кнопки просто служат неким триггером для отправки в эти файлы...так идейка огонь конечно. Блин только закончил сложный калькулятор, как же долго я буду это делать, представить боюсь)

Еще раз постулат перечитал, я имел ввиду что белые адреса и все кто заходит на сайт у вас не храниться, есть условно черный список, кто сразу страницу с пипиркой получает, а белые идут в обработку.  Я так понимаю вы месяца 3-4 этим занимаетесь, стал чище трафик?

На минуточку, чёрный и белый списки формируются мной вручную, но пополняются медленно, т. к. в чёрный обычно вносится сразу новый диапазон – при этом мной анализируется, могут ли быть «живые» посещения с этого диапазона (скажем, при подключении через VPN) или это с большой степенью вероятности исключено, а в белый – боты поисковых систем, опять же после проверки, цель которой – установить, что бот с заголовком Яндекса пришёл с диапазона, который действительно принадлежит Яндексу.

Данные пишутся в MySQL-таблицу – при грамотной переиндексации полей и своевременной чистке запросы туда производятся за доли секунды. Долго статистика в этой таблице не живёт – накопленные результаты аналитики вносятся в другую таблицу, где данные хранятся дольше, а оперативная таблица визитов чистится по крону.

И да, трафик стал чище, а тормоза при использовании этого способа практически отсутствуют. Хотя, конечно, 100% гарантии от ботов это не даёт. Поэтому время от времени и добавляются новые алгоритмы, на основе новых сформулированных паттернов поведения ботов.

Вот видишь, Алиса, что нужно всё время бежать, чтобы оставаться на месте! А чтобы куда-нибудь добраться – нужно бежать вдвое быстрее!
K4
На сайте с 29.01.2020
Online
66
#63
Михаил #:
И да, трафик стал чище

Насколько чистый трафик, интересует процент роботности в метрике по прямым заходам и по поисковым запросам.

Михаил
На сайте с 02.03.2007
Offline
174
#64
Kykapa4a #:

Насколько чистый трафик, интересует процент роботности в метрике по прямым заходам и по поисковым запросам.

Здесь всё зависит от общего трафика сайта. Скажем, на двух основных сайтах у меня 200-250 ежедневных уников и там % отказов к 4-5 утра (ибо основное ядро ЦА – Москва и график «живой» активности соответствующий) может оказаться под 50%, но уже к 12 дня снижается до 12-25 %, а к вечеру изредка при случае может и до 8-10% снизиться. В выходные % отказов легко может и до 80% подскочить, сейчас готовлю доп. алгоритмы под это дело.

А вот с малопосещаемыми хуже: к примеру, зашли 5 человек, тщательно пролистали уроки по 3D, вслед за ними притопали 15 ботов и пошли шерстить мой сайт/wordpres/dropdown/uninstall.php (там упомянутых мной алгоритмов нет, просто Метрика саморезами привинчена в подвале и всё) – результат вполне предсказуемый, хорошо если меньше 80% будет. Правда, не так давно мне это поднадоело и на днях организовал для нескольких доноров небольшое подспорье – аналитику визитов с доноров центральным хабом и возврат тем результатов по API в формате JSON вида «этого можешь пустить, а этого гони взашей» (фактически свой собственный куцый суррогат CloudFlare), но статистика результатов анализа хабом пока не собралась, нужно время, да и корректироваться ещё будет. Зато при таком подходе, если на хабе заблокировал подсеть или UserAgent – зайти он не сможет уже ни на центральный хаб, ни на одного из доноров.

Не, понятно, что велосипед. Но что там будет с CloudFlare – пока неясно, ибо перспективы развития дальнейшей обстановки весьма туманны, да и по скорости отклика, говорят, прихрамывает. А у меня всё собственное, без натуральной химии, поэтому и измеряется в сотых секунды.

P. S. Виноват, меня же про роботность спрашивали, а не про отказы. Посмотрел – на двух сайтах в среднем за месяц 20%, на старом фаворите – 1%, на остальных разброс от 30 до 80%.

R
На сайте с 06.02.2022
Offline
41
#65

Cпособ на самом деле топовый. Смотрел там кто то критикует, мож ботоводы и есть. Буду точно в этом направлении копать, будет жестко...Хотя, насколько я понимаю, полную блокировку подсетей, битерику и выявленных вручную можно и оставить на полном блоке через htaccess. Вариант со шторкой мне не очень нравится, так как клиенты сейчас лишний раз че то закрывать не особо...

А вот скрытые кнопки это кул. Я как раз недавно столкнулся с 7 конверсиями перехода в ватсап из формы которую даже не открывали.(ссылка только внутри модального окна есть)  Приходится вместо работы над улучшением сайта вот такой вот херней заниматься. Еще бы робота все научились блокировать, который контент крадет и под видом своего в гпт ответах яндекса выкладывает, и этот способ максимально расфорсить, чтобы там пердаки в космос улетели, как у меня при анализе статистики яндекс директа.

R
На сайте с 06.02.2022
Offline
41
#66
Просто в шторке даже если полезный контент разместить, возможно заказчик на нем ограничится и не будет закрывать ее.
R
На сайте с 06.02.2022
Offline
41
#67
Михаил #:
Долго статистика в этой таблице не живёт – накопленные результаты аналитики вносятся в другую таблицу, где данные хранятся дольше, а оперативная таблица визитов чистится по крону.

Если честно запутался в конечном итоге. Я думал из черно списка ip диапазонам выдается определенная страница. Вот сижу думаю, вы вроде как писали, это опять же для отслеживания делаете, мол если этот код отдал-бот. Когда уже понятно что это ботинок, что с ним делаете то? Вроде как писали что страница с эротикой и все такое, но опять же чтобы отследить...Честно говоря был уверен, что  база данных служит скоплением нужных диапазонов ip, которым нужно кукиш показать вместо контента.

Немного покумекав, если с директа боту страницу показали, клик засчитали, CTR и CTA разбавился, (по моему мнению эти упыри для этого ботов и создали). Не выгоднее ли через htaccess все таки банить диапазоны?

Некоторые тесты показали что в зачет они не идут, а так есть метрика нету клики то все равно в зачет идут.

Михаил
На сайте с 02.03.2007
Offline
174
#68
ronibestplay #:

Если честно запутался в конечном итоге. Я думал из черно списка ip диапазонам выдается определенная страница. 

Ещё раз.

Две таблицы. Одна постоянная, для «чёрного» и «белого» списков. Вторая – оперативная, с ежедневной очисткой.

Все визиты на сайт – через «сторожа». Всем, кто в «чёрном» (пополняемом вручную!) – «сторож» говорит «до свидания», даже не подключая основное ядро сайта. Всем, кто в «белом» – «добро пожаловать» и прекращает для них все проверки, и точно то же самое повторится для них и завтра, и послезавтра. Остальных «сторож» проверяет по ряду алгоритмов, причём эти алгоритмы анализируют – внимание! – что и как гость делал СЕГОДНЯ, потому что ВЧЕРАШНЯЯ статистика уже почищена, то есть если эти же визитёры зайдут завтра и поведут себя иначе – «сторож» про их визиты за  предыдущие дни уже не «вспомнит» и соответственно снова прогон по тем же алгоритмам (которые при иной модели поведения они, возможно, уже пройдут).

Вы запутались просто потому, что 1) разговор начался с лайфхака с «занавеской» – а это лишь один из множества способов определить бота; и 2) в описанной мной структуре нет (пока нет!) очевидно и явно необходимой связи – прежде чем очистить статистику за предыдущие дни и «забыть» все визиты за эти дни, система должна самостоятельно накапливать результаты анализов и автоматически вносить наиболее назойливых гостей в «чёрный» список в постоянную таблицу, где они поселятся уже надолго.

Почему я ПОКА не доверяю системе делать это самостоятельно? Потому что сама система не в состоянии оценить вероятность ботных и живых визитов  с конкретного IP – сегодня оттуда пришёл бот, а завтра кто-то живой и кожаный, неутолимой жаждой знания томим, подключился к VPN и пришёл ко мне с этого же сервера за информацией.

Что тут можно сделать? Ну например, добавить в постоянную таблицу «серый» список – типа, этим пока можно, но каждого между делом вручную проверить на благонадёжность и сопричастность к «битерикобразным» диапазонам, и чтобы самых назойливых система ежедневно кидала в этот «серый» список на проверку перед очисткой ежедневной статистики.

Проблема в том, что большинство ботов уже давно не представляются в UserAgent своими истинными именами, кроме разве что самых известных. IP тоже не показатель – боты ко мне прекрасно прутся и с Ростелекома, и с Мегафона, то есть с тех же сетей, откуда приходит и живой траф. Подставить любой реферер в визит для ботов опять не вопрос. То есть в итоге достоверную инфу о посетителе, по сути, получить не так-то просто. А лайфхаки с кнопками и «занавесками (и возможно, вскоре появятся новые) – стопроцентно «чистый», лёгкий и простой маркер: бот! Чем мне эти способы и нравятся.

R
На сайте с 06.02.2022
Offline
41
#69
Михаил #:
Две таблицы. Одна постоянная, для «чёрного» и «белого» списков. Вторая – оперативная, с ежедневной очисткой.
Спасибо за столь непохожие для данного форума ответы. Будем работать и разбираться своими силами, а то даже как то неудобно. Сколько времени тратите на сообщение такое длинное. Пока все это в зачатии у меня, но кое-какие подвижки есть. Как считаете в двух словах, если я на один город работаю без seo трафика, может и правда все кроме одного города заблочить, потеряется парочка клиентов да и бог с ними.
Михаил
На сайте с 02.03.2007
Offline
174
#70
ronibestplay #:
Спасибо за столь непохожие для данного форума ответы. Как считаете в двух словах, если я на один город работаю без seo трафика, может и правда все кроме одного города заблочить, потеряется парочка клиентов да и бог с ними.

Мне несложно, если есть время – почему бы не поделиться.

Насчёт городов – здесь не специалист, промолчу. Хотя, на мой взгляд, тут всё не очень просто, особенно с оглядкой на весьма зыбкие представления алгоритмов Яндекса о геотаргетинге – лично я в подобных случаях воздерживаюсь от лишних блокировок, если их смысл не отвечает формулировке «кристально ясен».

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий