Блокировать ботов или скрывать метрики?

14

novenkii202309

15 ноября 2024, 04:43

1370

Понимаю, что тема заезженная на тысячу раз. Но, кто как считает что по итогу делать с пф ботами? Вариант с Клаудом и антиботами не рассматриваю. Раньше блокировал через htaccess тех, что идут с пф баз типа битерики и скрывал метрику для тех, кто идет прямыми заходами с мобильных операторов типа мегафона, МТС, Билайна. Сейчас для всех, кого считаю ботом скрываю метрику. Особо разницы по позициям не заметил в этих двух случаях. Точнее просадка есть небольшая с момента начала разгула, но эта просадка примерно одинаковая и в гугл и в Яндекс, поэтому не факт, что из-за ботов. Перешел на вариант скрытия метрики из-за опасений, что блоком в htacces можно реальных юзеров заблокировать, хотя был осторожен с айпишками, думаю, это маловероятно. По отказам, ведут себя относительно спокойно, проявляют активность на сайте в среднем чуть похуже реальных юзеров, сервер не грузят. По кол-ву на мой взгляд процов 20 максимум от всех юзеров. Но при скрытии метрики, метрика считает только 3-4%. Все же блокировать или продолжать скрывать метрику от них? Есть опасения, что даже скрывая метрику, в один прекрасный момент наделают отказов, я не узнаю об этом, а поисковики узнают без метрики по другим каналам(браузер и т.д)

190

Михаил

15 ноября 2024, 06:30

#1

novenkii202309 :

Все же блокировать или продолжать скрывать метрику от них?

Ну вот смотрите: предположим, заходит к вам бот какого-то британского образовательного учреждения в поисках материала, который могли сплагиатить у вас тамошние студенты для своих дипломных работ. Причём не просто заходит, а сканирует ваш сайт сверху донизу с частотой 3-5 запросов в секунду. Можно, конечно, скрыть от него метрику – но смысл вообще пускать его к ядру сайта? Это же во всех движках – куча процедур для показа страниц с контентом, смысл грузить сервер? «Чао, бамбино, сорри» на первом шаге с выдачей кода заголовка 404 и жёсткое прерывание всех последующих процедур, всё.

И другой вариант: опять бот, но на сей раз предположительно, потому как с подсети, откуда мог бы и живой чатланин пожаловать. Запросы с интервалом в три-пять секунд. Да ещё и потенциально полезный (ну скажем, applebot, или mail.ru, или chatgpt, мало ли, вдруг они инфу для поисковой выдачи собирают, ох, сейчас Алаев на меня ругаться будет за такие заявления, ну да ладно). Вот тут уже можно и к ядру, осторожненько и без Метрики.

Короче, это вопрос из серии – на метро или на машине? Да смотря куда ехать.

Только оговорюсь, делать это htaccess'ом – так себе идея. Блокировка ИМХО должна работать динамически, по алгоритмам. У меня, к примеру, если бот последовательно в течение некоего периода времени сначала шлёт запросы 3 раза в секунду, затем пошёл сканировать URL типа /сайт/wp-content/dropdown.php, затем полез в cgi-bin или принялся искать сертификаты – автоматически влетает в бан уже на период времени из профилактических соображений. Кстати, помогает – часть незваных гостей на этом этапе отваливается на недельку, на месяц или вообще больше не возвращается.

Вот видишь, Алиса, что нужно бежать со всех ног, чтобы оставаться на месте! А чтобы куда-нибудь добраться – нужно бежать вдвое быстрее!

У Метрики своя выдача?) Переходы по ссылкам на Скрин страницы сайты рядом

N2

14

novenkii202309

15 ноября 2024, 06:43

#2

Михаил #:

Ну вот смотрите: предположим, заходит к вам бот какого-то британского образовательного учреждения в поисках материала, который могли сплагиатить у вас тамошние студенты для своих дипломных работ. Причём не просто заходит, а сканирует ваш сайт сверху донизу с частотой 3-5 запросов в секунду. Можно, конечно, скрыть от него метрику – но смысл вообще пускать его к ядру сайта? Это же во всех движках – куча процедур для показа страниц с контентом, смысл грузить сервер? «Чао, бамбино, сорри» на первом шаге с выдачей кода заголовка 404 и жёсткое прерывание всех последующих процедур, всё.

И другой вариант: опять бот, но на сей раз предположительно, потому как с подсети, откуда мог бы и живой чатланин пожаловать. Запросы с интервалом в три-пять секунд. Да ещё и потенциально полезный (ну скажем, applebot, или mail.ru, или chatgpt, мало ли, вдруг они инфу для поисковой выдачи собирают, ох, сейчас Алаев на меня ругаться будет за такие заявления, ну да ладно). Вот тут уже можно и к ядру, осторожненько и без Метрики.

Короче, это вопрос из серии – на метро или на машине? Да смотря куда ехать.

Только оговорюсь, делать это htaccess'ом – так себе идея. Блокировка ИМХО должна работать динамически, по алгоритмам. У меня, к примеру, если бот последовательно в течение некоего периода времени сначала шлёт запросы 3 раза в секунду, затем пошёл сканировать URL типа /сайт/wp-content/dropdown.php, затем полез в cgi-bin или принялся искать сертификаты – автоматически влетает в бан уже на период времени из профилактических соображений. Кстати, помогает – часть незваных гостей на этом этапе отваливается на недельку, на месяц или вообще больше не возвращается.

Сори, имел ввиду в вопросе именно пф ботов с работающим js, обходящих капчу, которых и метрика не всегда различает от реальных людей. Краулеры, которые просто массово сканируют страницы курлом и так блокируются системой сайтов уже лет этак 10, с ними, думаю, и так все понятно. Речь о тех ботах, которых можно отличить разве что по действиям в вебвизоре.

Яндекс кобласит 10к ботов похожих на Помощь в фильтрации ботов

190

Михаил

15 ноября 2024, 07:01

#3

novenkii202309 #:

Сори, имел ввиду в вопросе именно пф ботов с работающим js, обходящих капчу, которых и метрика не всегда различает от реальных людей. Краулеры, которые просто массово сканируют страницы курлом и так блокируются системой сайтов уже лет этак 10, с ними, думаю, и так все понятно. Речь о тех ботах, которых можно отличить разве что по действиям в вебвизоре.

Тогда этот способ – применяется, как я заметил, повсеместно, в самых разнообразных разновидностях – всплывающие сообщения о скидках, акциях, использовании куков и персональных данных, а конечная цель одна и та же: «закроет или не закроет? бот или человек?». Раньше раздражало, а потом понял, зачем это делают, и сам стал так делать. Умение юзать JS боту тут не поможет, тут нужно переключаться с визора Хищника на человеческий взор, а с этим они пока не справляются. Но с использованием этого метода – вы уже пустили гостя в ядро, так что очевидное решение – скрыть от него Метрику. Ну ещё можно, конечно, забабахать для таких гостей принудительную задержку выдачи страниц секунд на десять, и всё было бы прекрасно, когда эти гости лезли бы на сайт последовательно, а не в многопоточном режиме.

Ловля ботов из РСЯ – делюсь лайфхаком - Веб-аналитика - Сайтостроение - Форум об интернет-маркетинге

2024.01.26
searchengines.guru

чтобы конкретно мешал просмотру контента как всплывающая реклама. что его надо закрыть и прокрутка контента идет сквозь мутный муар подложки окна приветствия. Ну тогда уж разместите рекламу формана Onclick и смотрите

Предупреждение о cookie и Продам ссылку с ПР6 Яндекс и rel "nofollow"

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы