Комментарии - mrmvd - Профиль вебмастера - Форум об интернет-маркетинге

Визиты умных ботов и падение позиций в Яндекс

17 января 2019, 22:46

weblad:
Еще раз - боты не только Германия, но и Россия, разные браузеры, разные операционные системы, разные хосты.
Они успешно обманывают защиту cloudflare, платный php-скрипт отлова ботов и Яндекс.

Если можете предложить и описать конкретное решение в данной ситуации - велкам.
Если нет - хотелось бы услышать тех, кто сталкивался с такой проблемой, а не тех кто ради рекламы своих услуг зашел, спасибо.

Я сталкивался, только с двумя поправками:

1) Максимальный трафик ботов в день был около миллиона хитов.

2) Боты были всех мастей и страстей.

А ну да - и по времени эта канитель длится годами с переменным успехом.

Для начала любыми способами найдите статистику которая позволяет группировать пользователей по сессиям, хитам и выводит IP-адреса.

Я начинал с того, что отсекал ботов с одной сессией и большим числом хитов. Они сидели в дата-центрах.

Тут по соседству есть скрипт который блочит 20 с чем-то тысяч IP и подсетей всех ЦОД-ов мира. Это можно делать и руками, заблокировав 10-20 крупных дата-центров.

Этот шаг помогает против ботов СИЛЬНО.

Теперь по php скрипту - тестирую его второй день.

Мое мнение - это вторая линия обороны, ограничение http/2 включать нельзя - толку нет, а юзеры не доходят. Скажем так, процентов 30 от оставшихся он отсекает.

Но те что вас беспокоят, остаются и останутся, потому что скрипт довольно-таки простенький, он от парсеров, а не от вредителей.

Попробуйте поставить задержку на счетчик метрики рандомом, это добавит хаоса.

Вообще попробуйте поработать в направлении вывода метрики по каким-то правилам, которые позволяют вам понять, что перед вами робот, а не человек.

Если закупаете трафик - попробуйте задействовать UTM метки чтобы показывать счетчики тем, за кого вы заплатили. Правда, среди кликающих около 30% ботов.

И кстати, крепко подумайте над тем, чтобы по возможности закрыть свой сайт от Украины.

Доступ на сайт через Captcha - как реализуется?

16 января 2019, 15:10

Ну пока что поставили Antibot - смотрю на эффект.

Первый день показал, что там конечно очень много ботов отсеклось, но мне нужно дополнительно использовать проверку на репутацию по IP-адресам, и вот этим товарищам подсовывать капчу.

В принципе, в антиботе есть какой-то обработчик, который умеет смотреть наружу, и если его натаскать на DNS того же smaphouse, то можно получить полную защиту, которую я и хочу в итоге. Но тут думать и программировать надо или уговорить разработчика на такой апгрейд.

---------- Добавлено 16.01.2019 в 18:20 ----------

Оптимизайка:
Ну вот вам с коммитами:

https://habr.com/ru/post/139931/

Наколенное решение все равно не даст такого хорошего результата, как специально разрабатываемый и поддерживаемый специалистами сервис, но возможно для вас этого будет достаточно.

На хабре очень много теоретиков, которые слышали что-то о ddos-ах на серверы "сбербанка", а по факту не смогут даже mod_evasive настроить.

У меня простая задача: максимально усложнить жизнь ботам, которые максимально маскируются под посетителей сайта, в том числе выполняют Java, ставят куки и кликают по баннерам. Я определил, что большая часть этих товарищей лезут с непонятных IP, которые есть в базах репутации, или из стран, где про Россию не говорят даже за ужином.

Я не хочу их резать в iptables по стране или региону, потому что это некрасиво, плюс в РФ они используют публичные IP провайдеров.

Доступ на сайт через Captcha - как реализуется?

15 января 2019, 10:24

DiKiJ:
Что-то читал тему, читал... и ничего не понял. Вы ведь про реализацию чего-то вроде скрипта AntiBot? Он максимально похож на CloudFlare, как мне кажется.

Алгоритм работы там довольно простой.
- Смотрим, есть ли у посетителя куки или он из списка доверенных IP адресов (боты Яндекса, гугла).
- Если нет - выдаем пустую страницу, на которой ставим JavaScript куки и перезагружаем ее скриптом.
- Есть куки? Пользователь проходит. Даже капча не нужна.

Или такой вариант вообще не то?

Такой вариант - то!, но очень хочется community-решение с коммитами, траблшутами и прочей лабудой.

А тут один разработчик - он завтра болт положит на свой проект и придётся

1) Вспоминать где и что было проинсталлено

2) Переходить заново и начинать все с начала.

Да и правильно в комментах кто-то написал, что его парсеры спокойно обрабатывают cookie. Капча в этом случае надежнее.

Доступ на сайт через Captcha - как реализуется?

14 января 2019, 07:37

cloud-shield:
У вас спортивный интерес к самостоятельной реализации этого?
Если нет, то проще воспользоваться готовой опцией у сервисов аля CF.

Да, спортивный. Хочу самостоятельно всё настроить, чтобы выбрать только те правила, которые мне нужны.

Увидел схему, где modsecurity каждый запрос отправляет на локальный dns сервер, который кэширует RBL таблицы. И уже от его ответа идёт действие. На бумаге всё очень просто и занятно, теперь осталось только реализовать и посмотреть, будет ли это тормозить для GET-запросов.

Доступ на сайт через Captcha - как реализуется?

13 января 2019, 15:26

Хорошо, тогда другой вопрос - мы можем с помощью modsecurity вырезать часть HTML кода для таких вот посетителей с подозрительных IP?

Да, нашел - можно. Основной вопрос - кто это делал?

Доступ на сайт через Captcha - как реализуется?

13 января 2019, 14:21

Хорошо, допустим обработчик я придумал и написал. Вот вопрос #2 - как вместо страницы выдать капчу, а в случае если человек её проходит - выдать запрашиваемую страницу?

Доступ на сайт через Captcha - как реализуется?

13 января 2019, 13:50

По ссылке они подменяют страницу на 403-ю кастомную, а дальше развития нет. Если человек с забаненого IP адреса зайдет на кастомный Access Denied, ему легче не станет. А я ищу метод чтобы собрав капчу, человек смог дальше пройти на сайт.

Задача - поставить на пути ботов, занимающихся накрутками и скрапингом, труднопроходимое препятствие.

К сожалению, многие боты ходят с IP адресов beeline и обычных провайдеров, так что банить их целиком - не самое лучшее решение. А так, используя IP reputation, можно подозрительным категориям подсовывать капчу перед заходом на целевую страницу, и я как раз хочу сделать подобное решение.

Обновленный PageSpeed Insights

31 декабря 2018, 12:18

В общем, пока мысль такая - поскольку insight имеет погрешность 30-50%, предвижу новую SEO-услугу: повысим статистику пользовательской загрузки, будем заходить на сайт с мощных смартфонов, прямо возле вышек сотовой связи, чтоб грузить сайт с мобилки со скоростью 70-80 Мбит/с, и всё закэшируем.

Если в hosts добавить 127.0.0.1 на фейсбук и вконтакт, то стату можно сильно накрутить.

---------- Добавлено 31.12.2018 в 16:44 ----------

mrmvd:
В общем, пока мысль такая - поскольку insight имеет погрешность 30-50%, предвижу новую SEO-услугу: повысим статистику пользовательской загрузки, будем заходить на сайт с мощных смартфонов, прямо возле вышек сотовой связи, чтоб грузить сайт с мобилки со скоростью 70-80 Мбит/с, и всё закэшируем.

Если в hosts добавить 127.0.0.1 на фейсбук и вконтакт, то стату можно сильно накрутить.

А вообще солюшн достаточно простой:

американский хостинг + lazzy подгрузка всего что только можно + включение кэша на уровне 300+ дней.

Если народ не будет менять мобилки как перчатки, то сработает.

Кстати, не удивлюсь если Android научится синхронизировать кэш браузера при переходе на новый смартфон.

Обновленный PageSpeed Insights

31 декабря 2018, 07:24

FireAiD:
Да, бесполезно. Мне ответили, что Гугл врет - у них итак все быстро грузится😂

Ну я так смотрю - из виджетов ни у кого нет gzip, ни у фейсбука, ни у вконтакта, ни у яндекса с гуглем.

Видимо сильно процессоры грузит.

Тогда вопрос - что на мобильном важнее - наличие комментов, дающих оживление и ПФ, или отсутствие комментов, дающее 20 очков в pagespeed?

Речь идет исключительно о виджете вконтакта.

Обновленный PageSpeed Insights

30 декабря 2018, 20:49

DiKiJ:
Попробовал отдавать скрипт комментариев ВК асинхронно по загрузке файла. Гугл видит.

Попробовал ставить и сразу проверять JavaScript куки - Гугл не видит скрипт :)

я правильно понимаю, что стучаться во вконтакт и просить их сделать lightweight скрипт со сжатием и асинхронной загрузкой бесполезно?

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

mrmvd