Анти БОТ

Анти БОТ
Рейтинг
130
Регистрация
14.03.2020
Должность
специалист по поведенческим ботам
RomarioSpirtberg #:

Посмотрел по логам клауда и по метрике. В основном заходят через поддомены на главную страницу по первому правилу (Skip)Пустая строка запроса, ASN AS13238 (Яндекс), который у меня разрешён во втором и третьем правилах и где стоит JS-вызов. Пример на скриншоте.

Это понятно, что яндекс разрешен и его бот будет ходить по сайту. Вы видите в этом что-то плохое?
Если вы вдруг поддались вот на такой шантаж, для начала стоит удалить привязку счетчика и метрики. Чтобы яндекс в карту сайта ходил, а не шпионил за всеми подряд.
клауд

По остальным начальным шагам настройки клауда, у вас получилось забанить тех поведенческих ботов, которые долбились на 404 страницу?

Очень удобно обсуждать / осуждать то, чего в глаза не видели, на своем собственном неудачном опыте. 
Готовые наборы правил вам никто не выложит, так что намеки на метод "не верю, покажи" можете забыть, это только в детстве прокатывает.

Любое работающее решение, выложенное в открытый доступ, мгновенно превращается в неработающее решение.
Как те самые, простейшие правила с VC.
Дальнейшее набрасывание на вентилятор бессмысленно, можете не стараться. 

Ну а для адекватных читателей топика. Волшебных решений не бывает. Но если постоянно заниматься вопросами настройки клауда, то будут и результаты. Как на графике чуть ранее, где момент включения фильтрации могут не заметить только пару дежурных нытиков. 
График был выложен в ответ на категоричное утверждение о том, что раз никто не выложил в открытый доступ на блюдечке готовое решение - фильтрация рефспама средствами клауда невозможна.

sagamorr #:

У меня тоже был наплыв трафика с переходов по ссылкам 2-3 мес, потом сам пропал. Так, что такие графики могу и я выложить.

"У него был триппер, а потом пропал". 
Да я понял, что забалтывать уводить тему в сторону вы умеете.  Все время вспоминая те гральные начальные неск строчек с VC. Просто ничего другого лично вы и не видели, поэтому и льете воду. 

Для всех остальных еще раз повторю. Волшебных методов не бывает, но если подходить комплексно, то вполне реально зацепить подрезать и то, что вроде как напрямую не подрезать.

sagamorr #:
Для фильтрации реф спама (который определятся в метрике Другая реклама: определено по меткам) нужно проверять URI на вхождение utm.

Не вводите в заблуждение. Рефспам отдельно в метрике - переходы с сайтов.
Как вариант - смотреть логи посещений сервера, сравнивать по времени с метрикой, определять айпи и подсеть откуда заход по конкретному переходу якобы с сайта, чтобы вычислить паттерн.
А отчет переходов по рекламе  (?utm_source=) - отдельно.

В топике речь про переходы с сайтов.

Требовать конкретное волшебное решение, на конкретный случай - глупо.
Я вроде четко показал, что все возможно, если подходить к вопросу в комплексе.
клауд

sagamorr #:

Юзер агенты у ботов такие же как у живых пользователей,

Я писал вот про такие случаи. Ну или когда пустой юзерагент, либо юзерагент из списка автоматических запросов, наподобие Wpscan или Screaming Frog. 

клауд

png 2260_1.png
Антоний Казанский #:

Опишите пожалуйста их логику, чтобы было понятно, как можно применить ваш совет с демонстрацией такого результативного скриншота.

Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.

- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно
- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков
- все что обращается туда, куда человек не обращается
- все что выходит за паттерн запроса человеком
- явные (битерика энд компани) и неявные подсети, хостеры и проч
- явные боты
- различные ддос паттерны атак

Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.

Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.
Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.

клауд

Антоний Казанский #:

...

Тратить ресурсы на то, что в результате скорее всего приведет к таким простым рекомендациями, которые выше изложены - затея довольно напрасная.

Это сейчас, когда разжевано, это выглядит просто и логично.

Меня допустим спасло что там связка клауд + кеширование. Ничего не падало, но насколько помню в вебмастере начало ругаться на что-то, я полез проверять. А если вебмастера нет? Обычно только такие гики как мы, здесь присутствующие, такие фичи ставят используют. 
А так бы повыпадали страницы из индекса, потому что замедлился бы сайт и бот не получал бы долго ответ. Слетели бы позиции. Т.е. тот же результат что и при ддос, но хитрее и внешне незаметнее.

А когда у меня взбесился яндекс бот, это выглядело из разряда ахтунг что делать, откуда это, за что хвататься. И ноль инфы в инете.
Ну только набросы в вентилятор, наподобие топикстартер не умеет, сам наплодил ссылок начудил, сам скормил боту, у него неправильная цмс нужно показать ему кусок кода из хелпа про 301 редирект, плохо логи посмотрел, и вообще сам дурак.

RomarioSpirtberg #:

Вот это я не смогу сказать, может быть вы подскажите как это определить? Я только вижу внутренние переходы, которые начинаются со страницы site.ru/articles/.

.

У вас есть логи сервера, логи клауда и метрика. Было бы желание, а сопоставить все это и определить зависимость - вопрос решаемый.

sagamorr #:
Поделитесь, пока все что предлагали на форуме не рабочее.

И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.

Антоний Казанский #:

Т.е. весь сыр-бор только для того, чтобы вынудить вебмастера зайти в Вебмастер и снизить скорость обхода поискового робота?

Как правило, внешне со стороны владельца это выглядит так: сайт стал тормозить или вообще открываться через раз. Все. Почему - непонятно и неизвестно.

Чтобы найти причину, нужно:
- быть зарегистрированным в вебмастере, вероятность малая, если владелец не шарит, как правило это так
- на хостинге должны вестись логи посещений, эта галка нажата обычно через раз, больше даже попадается что логов нет
- уметь читать эти логи, увидеть что это запросы от бота яндекса
- знать, что в вебмастере существует возможность ограничить скорость обхода, вероятность низкая
- знать о существовании файла роботс и что там можно задавать директивы, уметь это делать, вероятность низкая
- знать о том, что это такая атака, хитросделанная - вероятность низкая

Поэтому, как правило, атака эффективна, и фатальна для относительно слабых хостинг планов. Да и последствия вброса такого количества 404 страниц в обход тоже явно будут. Мне попадалось, что яндекс в сутки вот так сканировал до 100 000 несуществующих страниц. И так несколько дней подряд.

Всего: 1328