Анти БОТ

Анти БОТ
Рейтинг
137
Регистрация
14.03.2020
Должность
специалист по поведенческим ботам
sagamorr #:

Юзер агенты у ботов такие же как у живых пользователей,

Я писал вот про такие случаи. Ну или когда пустой юзерагент, либо юзерагент из списка автоматических запросов, наподобие Wpscan или Screaming Frog. 

клауд

png 2260_1.png
Антоний Казанский #:

Опишите пожалуйста их логику, чтобы было понятно, как можно применить ваш совет с демонстрацией такого результативного скриншота.

Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.

- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно
- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков
- все что обращается туда, куда человек не обращается
- все что выходит за паттерн запроса человеком
- явные (битерика энд компани) и неявные подсети, хостеры и проч
- явные боты
- различные ддос паттерны атак

Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.

Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.
Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.

клауд

Антоний Казанский #:

...

Тратить ресурсы на то, что в результате скорее всего приведет к таким простым рекомендациями, которые выше изложены - затея довольно напрасная.

Это сейчас, когда разжевано, это выглядит просто и логично.

Меня допустим спасло что там связка клауд + кеширование. Ничего не падало, но насколько помню в вебмастере начало ругаться на что-то, я полез проверять. А если вебмастера нет? Обычно только такие гики как мы, здесь присутствующие, такие фичи ставят используют. 
А так бы повыпадали страницы из индекса, потому что замедлился бы сайт и бот не получал бы долго ответ. Слетели бы позиции. Т.е. тот же результат что и при ддос, но хитрее и внешне незаметнее.

А когда у меня взбесился яндекс бот, это выглядело из разряда ахтунг что делать, откуда это, за что хвататься. И ноль инфы в инете.
Ну только набросы в вентилятор, наподобие топикстартер не умеет, сам наплодил ссылок начудил, сам скормил боту, у него неправильная цмс нужно показать ему кусок кода из хелпа про 301 редирект, плохо логи посмотрел, и вообще сам дурак.

RomarioSpirtberg #:

Вот это я не смогу сказать, может быть вы подскажите как это определить? Я только вижу внутренние переходы, которые начинаются со страницы site.ru/articles/.

.

У вас есть логи сервера, логи клауда и метрика. Было бы желание, а сопоставить все это и определить зависимость - вопрос решаемый.

sagamorr #:
Поделитесь, пока все что предлагали на форуме не рабочее.

И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.

Антоний Казанский #:

Т.е. весь сыр-бор только для того, чтобы вынудить вебмастера зайти в Вебмастер и снизить скорость обхода поискового робота?

Как правило, внешне со стороны владельца это выглядит так: сайт стал тормозить или вообще открываться через раз. Все. Почему - непонятно и неизвестно.

Чтобы найти причину, нужно:
- быть зарегистрированным в вебмастере, вероятность малая, если владелец не шарит, как правило это так
- на хостинге должны вестись логи посещений, эта галка нажата обычно через раз, больше даже попадается что логов нет
- уметь читать эти логи, увидеть что это запросы от бота яндекса
- знать, что в вебмастере существует возможность ограничить скорость обхода, вероятность низкая
- знать о существовании файла роботс и что там можно задавать директивы, уметь это делать, вероятность низкая
- знать о том, что это такая атака, хитросделанная - вероятность низкая

Поэтому, как правило, атака эффективна, и фатальна для относительно слабых хостинг планов. Да и последствия вброса такого количества 404 страниц в обход тоже явно будут. Мне попадалось, что яндекс в сутки вот так сканировал до 100 000 несуществующих страниц. И так несколько дней подряд.

sagamorr #:
Пока еще никто не предложил рабочего решения блокировки спам переходов с сайтов, с подменным реферером через CF.

Серьезно?
Решения, естественно, есть.

клауд

png 2259.png
png 2259_1.png
RomarioSpirtberg #:
Заходят НЕ напрямую, отображается как внутренний переход на страницу site.ru/articles/, 1-2 просмотра (эта же страница).

Напрямую они сначала приходят куда?
До того как перейти дальше.

Сергей :

Какие-то динамические страницы появились после переезда VPS на другой ip

Страниц таких нет, проверено. В заголовках все чисто.

Как исправить? Пока добавил в robots.txt но мне кажется что парсер Яндекса сошел сума.


Сталкивался с таким. Это очень хитрый ддос. Редкий, но крайне эффективный, не заблочишь же яндекс. На дорах сливаются кучи страниц с десятками тысяч несуществующих ссылок на страницы вашего сайта, и все это загоняется в индекс. Яндекс прется все сканировать, укладывая сервак.
Идите в вебмастер и ставьте скорость обхода на минимум.
И запретить индексацию всего лишнего в роботс.

Dimon748 #:
Мне нужен новый хостинг или переезд, к тому же cloudflare .

Сloudflare это не хостинг, свой сайт вы туда физически не перетянете. 
Вы спутали с возможностью сменить регистратора домена, там клауд да, предлагает такую услугу.

Если вы уже настроили что-то там в клауде - то просто меняйте хостинг. Ну а следующая ддос атака покажет, настроили или думали что настроили. Заодно на практике станет понятно, как новый хостер относится к подобным ситуациям.

Всего: 1414