Мини-отчет по массовой бане роботов.

12
Mik Foxi
На сайте с 02.03.2011
Offline
1076
#11

neoks, если визуальный шаблон проверки содрать с cloudflare, то у юзера ничего негативного не возникает, т.к. такой шаблон знаком и привычен юзерам и вполне норм подождет 3-5 сек без негатива для дальнейшего конверта.

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
neoks
На сайте с 17.03.2010
Offline
152
#12
foxi:
neoks, если визуальный шаблон проверки содрать с cloudflare, то у юзера ничего негативного не возникает, т.к. такой шаблон знаком и привычен юзерам и вполне норм подождет 3-5 сек без негатива для дальнейшего конверта.

Я бы подождал, но в магазине конверсия падала из за того что (пользователь первый раз в жизни попадает на сайт с ПС и почему-то некоторые из них закрывают вкладку).

Да и боюсь получить от ПС за клоакинг, поэтому реализовал фоновую проверку, не такая надежная как у вас, но в целом с поставленной задачей справляется :)

Оптимизайка
На сайте с 11.03.2012
Offline
396
#13
neoks:
в заглушке используется JS для установки валидных кук, благодаря которым белые пользователи могут попасть на сайт, а боты так и продолжают смотреть заглушку

Кроме ботов, которые основаны на phantom.js или headless chrome, которые нормально выполняют javascript. Почти все "накручивальщики ПФ" работают именно так, а у ТС как я понял, с этим как раз проблемы (т.к. их видно в метрике). Капчи у вас нет же?

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
M
На сайте с 04.08.2011
Offline
102
#14

У меня основная идея такая, что если несколько IP с роботами принадлежат одному хостинг-провайдеру, то я блокирую весь пул хостинг-провайдера, считая что люди живые там не сидят.

neoks
На сайте с 17.03.2010
Offline
152
#15
Оптимизайка:
у ТС как я понял, с этим как раз проблемы (т.к. их видно в метрике)

Не заметил данные метрики, в данном случаи можно включить проверку с "часовым/суточным" лимитом запросов + вывод reCAPTCHA на заглушке, это остеит ботов понимающих JS.

Но в этом случаи есть шанс отправить вместе с IP и белых пользователей за NAT.

Оптимизайка:
Капчи у вас нет же?

Есть reCAPTCHA с возможностью устанавливать время через которое потребуется снова пройти заглушку.

mrmvd:
У меня основная идея такая, что если несколько IP с роботами принадлежат одному хостинг-провайдеру, то я блокирую весь пул хостинг-провайдера, считая что люди живые там не сидят.

1) IP ДЦ можно заносить в iptables без угрызения совести, если только это IP не vpn сервиса, такие лучше проверять обычной схемой, потому что белый пользователи тоже юзают vpn.

2) IP интернет провайдеров лучше не блокировать, или блокировать на короткий промежуток времени.

Badmaestro
На сайте с 11.07.2008
Offline
213
#16

Я, видимо, чего-то не понимаю. Но зачем заниматься банами ботов поисковиков, если можно просто проставить корректные урлы на сайте?)

SEO без воды ( http://kupit-slona.ru ) Продвижение сайтов от 15000 в мес (https://searchengines.guru/ru/forum/1038146)
M
На сайте с 04.08.2011
Offline
102
#17
Badmaestro:
Я, видимо, чего-то не понимаю. Но зачем заниматься банами ботов поисковиков, если можно просто проставить корректные урлы на сайте?)

Ну в общем объясняю.

1) Никто не банит ботов поисковиков.

2) Есть урлы типа site.com/tovar.php?id=12345

Вот как правило, 99% CMS выдадут ту же страницу при запросе site.com/tovar.php?id=12345?page=2?vibory_2018=1

И это будет дублем, а отсеивать параметры, которые генерятся на лету очень непросто - либо надо чтобы CMS проверяла сама корректность параметра, либо думать, что делать.

Но допустим поисковики умеют отличать недубли от дублей с помощью canonical и внутренних ссылок на сайте.

Возникает следующий вопрос - зачем неизвестным ботам ходить по сайту, посещая одни и те же страницы?

Это не парсеры, т.к. парсеры идут по ссылкам от и до.

Это либо какие-то пингаторы, которые отслеживают изменения на страницах, либо что-то для SEO.

Логика подсказывает, что все что ты не заказывал на сайт - это либо чья-то реклама либо чье-то SEO.

Потом метрика показывает, что не всегда она отличает робота от человека, а значит хиты ботов учитываются для пресловутых поведенческих факторов.

И хочется спросить себя - эти роботы пришли, чтобы улучшить ПФ? Скорее всего нет.

Они могут ухудшить ПФ? Скорее всего да.

Кроме того, роботы очень сильно грузят интернет-канал, и это становится заметно на дальних хопах, если они работают территориально не возле твоего сервера, то грузят канал вот там, где сидит пользователь. Если роботы с Дальнего Востока шарят по твоему сайту, они скорее всего грузят канал до твоего сайта от Москвы до Магадана. И если у тебя на порту 100 мегабит пустые, то вот там уже 100 мегабит загруженные, и очереди, QoS и прочее прочее.

Нагрузку на базу данных и PHP я не беру, т.к. это все облегчается кэшированием, и вообще не суть вопроса.

И я уже писал, что очень существенно блокировка ботов влияет на скорость загрузки страниц у живых пользователей, у тех, кто сидит через 3G, на окраинах нашей необъятной родины и в других странах. У кого грузится медленно - становится быстрее. У кого быстро, на тех не влияет.

Кармически постоянно себя спрашиваю - вот люди старались, преследовали какую-то цель, хостинг покупали и роботов к нам присылали, а я их в баню. Правильно ли это? Думаю что да.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий