Опишите пожалуйста их логику, чтобы было понятно, как можно применить ваш совет с демонстрацией такого результативного скриншота.
Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.
- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков- все что обращается туда, куда человек не обращается- все что выходит за паттерн запроса человеком- явные (битерика энд компани) и неявные подсети, хостеры и проч- явные боты- различные ддос паттерны атак
Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.
...
Тратить ресурсы на то, что в результате скорее всего приведет к таким простым рекомендациями, которые выше изложены - затея довольно напрасная.
Это сейчас, когда разжевано, это выглядит просто и логично.Меня допустим спасло что там связка клауд + кеширование. Ничего не падало, но насколько помню в вебмастере начало ругаться на что-то, я полез проверять. А если вебмастера нет? Обычно только такие гики как мы, здесь присутствующие, такие фичи ставят используют. А так бы повыпадали страницы из индекса, потому что замедлился бы сайт и бот не получал бы долго ответ. Слетели бы позиции. Т.е. тот же результат что и при ддос, но хитрее и внешне незаметнее.А когда у меня взбесился яндекс бот, это выглядело из разряда ахтунг что делать, откуда это, за что хвататься. И ноль инфы в инете.Ну только набросы в вентилятор, наподобие топикстартер не умеет, сам наплодил ссылок начудил, сам скормил боту, у него неправильная цмс нужно показать ему кусок кода из хелпа про 301 редирект, плохо логи посмотрел, и вообще сам дурак.
Вот это я не смогу сказать, может быть вы подскажите как это определить? Я только вижу внутренние переходы, которые начинаются со страницы site.ru/articles/.
.
У вас есть логи сервера, логи клауда и метрика. Было бы желание, а сопоставить все это и определить зависимость - вопрос решаемый.
И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.
Т.е. весь сыр-бор только для того, чтобы вынудить вебмастера зайти в Вебмастер и снизить скорость обхода поискового робота?
Как правило, внешне со стороны владельца это выглядит так: сайт стал тормозить или вообще открываться через раз. Все. Почему - непонятно и неизвестно.Чтобы найти причину, нужно:- быть зарегистрированным в вебмастере, вероятность малая, если владелец не шарит, как правило это так- на хостинге должны вестись логи посещений, эта галка нажата обычно через раз, больше даже попадается что логов нет- уметь читать эти логи, увидеть что это запросы от бота яндекса- знать, что в вебмастере существует возможность ограничить скорость обхода, вероятность низкая- знать о существовании файла роботс и что там можно задавать директивы, уметь это делать, вероятность низкая- знать о том, что это такая атака, хитросделанная - вероятность низкаяПоэтому, как правило, атака эффективна, и фатальна для относительно слабых хостинг планов. Да и последствия вброса такого количества 404 страниц в обход тоже явно будут. Мне попадалось, что яндекс в сутки вот так сканировал до 100 000 несуществующих страниц. И так несколько дней подряд.
Серьезно?Решения, естественно, есть.
Напрямую они сначала приходят куда?До того как перейти дальше.
Какие-то динамические страницы появились после переезда VPS на другой ip
Страниц таких нет, проверено. В заголовках все чисто.
Как исправить? Пока добавил в robots.txt но мне кажется что парсер Яндекса сошел сума.
Сталкивался с таким. Это очень хитрый ддос. Редкий, но крайне эффективный, не заблочишь же яндекс. На дорах сливаются кучи страниц с десятками тысяч несуществующих ссылок на страницы вашего сайта, и все это загоняется в индекс. Яндекс прется все сканировать, укладывая сервак.Идите в вебмастер и ставьте скорость обхода на минимум.И запретить индексацию всего лишнего в роботс.
Сloudflare это не хостинг, свой сайт вы туда физически не перетянете. Вы спутали с возможностью сменить регистратора домена, там клауд да, предлагает такую услугу.
Если вы уже настроили что-то там в клауде - то просто меняйте хостинг. Ну а следующая ддос атака покажет, настроили или думали что настроили. Заодно на практике станет понятно, как новый хостер относится к подобным ситуациям.
Нет, уже заходят на другую страницу, код ответа 200.
Заходят напрямую?Или проходят вашу проверку на contacts, и далее идут на about/contacts?