Анти БОТ

Анти БОТ
Рейтинг
129
Регистрация
14.03.2020
Должность
специалист по поведенческим ботам
seo_ntk #:

не силен в технической части, а разработчик мне не особо помогает)

Обычно так бывает, когда разработчик разбирается не сильно лучше, чем заказчик. 

Если кратко, то битрикс, для корректной работы с клаудом, в большом числе случаев требует некоторой доработки (например, слетает сессия).

Нужно смотреть логи (Security WAF Events) на предмет блокировки запросов от своих приложений (например, они идут по HTTP1, который вы заблокировали), и дорабатывать правила. Я не про полноценно дорабатывать чтобы оно фильтровало поведенческих ботов, а чтобы не фильтровало подключение одного вашего приложения к другому.
Для облегчения поиска - отключайте правила по одному, смотрите когда заработает. Естественно, это все при включенном проксировании.

Как мне кажется, здесь мало исходной информации.

Не работает просто с дефолтным клаудом без настроек, или после каких-то настроек.

Если что-то настроено, то что именно?

WantNight #:

Задача была: закрыть sitemap -  но оставить их для поисковых систем. Подсказка предоставлена, дальше пусть реализует.
ТС не писал что ему нужно скрыть карту сайта, чтобы не парсили сайт (для этого другие правила).
Про фиды ТС ничего не писал, но что мешает их тоже закрыть если таковые имеются? Весь клауд логируется.

Ну да, мы на основании своего опыта пошли чуть дальше и показываем топикстартеру то,  во что он упрется на следующем шаге.

Ок, тогда да, согласен. Пусть ставит клауд и блокирует все заходы на карту, если это не яндекс и гугл.

А потом создает уже следующую тему, где спрашивает, почему боты все так-же парсят мой сайт 🤣

У меня уже даже готовый ответ есть для следующего топика: потому что ваш клауд отстой и ничего не фильтрует )

И кстати, это ведь не все правила. Вы показали только одно, то что я расписал выше.
А судя вот по этому, бота яндекса тоже не блокирует. Т.е. в вашей мешанине где-то есть еще правило know bots, которое пропускает бота яндекса.
Т.е. одним правилом вы пропускаете ботов яндекса, а другое тупо не работает, потому что правило Skip этому же яндексу все разрешает. Про то, что вы намудрили и блокируете тем правилом яндекс, а не исключаете его из правила блока, расписано выше.

Т.е. у вас вообще нет ни одного работающего правила с запретом прямых переходов.
С этим же успехом можете все это удалить, и не изменится ровным счетом ничего.

клауд
WantNight #:

Это Вы так решили?) На многих проектах закрываю карту для обычных юзеров.

Я такого же мнения, что и ТС. Карта и другие системные разделы (для ПС) должны быть закрыты и быть только для ПС.

Ставите клауд, делаете правило для пропуска хороших ботов (по мнению клауда). Собираете логи.
Смотрите логи, AS сети Ваших поисковиков. Делаете правило чтобы sitemap был доступен только с этих сетей.

Все настраивается клаудом или другим решением в 2-3 правила.

Все верно. Это как-бы логично.
Но как выше написал тот же Антоний, они спарсят те же фиды, пройдутся по ссылкам, Screaming Frog тот же запустят или аналогичный софт, и так далее.
Т.е. просто блокировкой карты тут не отделаться, это полумера.

Да и вы выше то же самое топикстартеру написали. Что если захотят - спарсят.

Ну там можно заморочиться, извратиться, настрогать правил что всем 503 или еще какая ошибка если это не AS гуглояндексов, и проч. Тем же Cloudflare.

Но как и написали выше, это борьба с ветряными мельницами, если у вас на сайте проходной двор, и на сайте не переставая пасется миллион сканеров и проч, которое вы никак не ограничиваете.

RomarioSpirtberg #:

Я сейчас тоже попробовал зайти через оперу с ВПН и без него. Я также попадаю на 404 страницу, ходя в настройках правила страница contacts указана (на скриншоте). Вот поэтому и задаю снова вопрос почему при блокировке в клауде боты попадают на 404 страницу. Мне это тоже не понятно.

Потому что вам четко сказали, что именно нужно делать. А вы сделали ровно наоборот, как я и написал выше. Мол, а чётакова? Чуть разбавил прибавил подправил.
А потом еще и удивляетесь, почему это они такие все злые и снова тыкают носом в готовую инструкцию, и не понимают откуда крики про то что эта инструкция не работает.

Читаем ваше правило дословно:

1. Блокировать, если это переход по HTTP1 из подсети яндекс.
Блок для яндекса по протоколу.

2. Блокировать, если это прямой заход с подсети яндекс.
Это еще одна мешанина где блокируется яндекс, если это прямой заход.

1. Блокировать, если страница контакты, прямой заход и подсети такие-то (яндекс).
Похоже на блок прямых заходов для ботов? Нет, это блок прямых заходов бота яндекса. Тогда возникает вопрос, зачем вообще это правило нужно, если есть более широкое, с той же блокировкой прямых заходов, выше.

Т.е. здесь есть всё, кроме того, что вам сказали сделать. Вам кто-то говорил, что сюда именно в таком виде нужно приплести яндекс? Еще и блок яндекса, а не исключение. И взаимоисключающая мешанина.

Вот и ответ на вопрос. Не нужно никакой самодеятельности в том, в чем вы не смогли разобраться. Оно не работает из-за вашей мешанины абы чего не понимая зачем всего в кучу. 

А потом и рождаются все эти категоричные беспочвенные утверждения, что отстой этот ваш клауд, не работает, не фильтрует и проч. 
У вас всего 3 самых простейших правила. Три. А уже столько косяков.

клауд

RomarioSpirtberg #:

Так вот меня интересует, как именно это можно сделать?

Зачем спрашивать все то же самое по новой? Тогда уже выкладывайте ссылку на свой швейный ZигZаг, и пусть все желающие сходят на сайт и дают советы, а не гадают что вы там не так сделали.

Вам уже несколько раз, на протяжении многих страниц, начиная вот отсюда, все расписали. Вы сделали все ровно наоборот, и снова спрашиваете одно и то-же, по кругу.
https://searchengines.guru/ru/forum/1075193/page51#comment_16933147

softerra #:

Теперь хочу заблочить полностью racktech, 160 строк - начинают лезть.

Да без проблем.
https://asn.ipinfo.app/api/text/htaccess/AS204916

alaev #:

Чел вроде всю их сетку собрал.

Чел просто скопировал в другом месте.
Вот прямая ссылка на актуальный обновляемый файл.

https://asn.ipinfo.app/api/text/htaccess/AS35048

Всего: 1326