Посмотрел по логам клауда и по метрике. В основном заходят через поддомены на главную страницу по первому правилу (Skip). Пустая строка запроса, ASN AS13238 (Яндекс), который у меня разрешён во втором и третьем правилах и где стоит JS-вызов. Пример на скриншоте.
Это понятно, что яндекс разрешен и его бот будет ходить по сайту. Вы видите в этом что-то плохое?Если вы вдруг поддались вот на такой шантаж, для начала стоит удалить привязку счетчика и метрики. Чтобы яндекс в карту сайта ходил, а не шпионил за всеми подряд. По остальным начальным шагам настройки клауда, у вас получилось забанить тех поведенческих ботов, которые долбились на 404 страницу?
У меня тоже был наплыв трафика с переходов по ссылкам 2-3 мес, потом сам пропал. Так, что такие графики могу и я выложить.
"У него был триппер, а потом пропал". ⒸДа я понял, что забалтывать уводить тему в сторону вы умеете. Все время вспоминая те гральные начальные неск строчек с VC. Просто ничего другого лично вы и не видели, поэтому и льете воду. Для всех остальных еще раз повторю. Волшебных методов не бывает, но если подходить комплексно, то вполне реально зацепить подрезать и то, что вроде как напрямую не подрезать.
Не вводите в заблуждение. Рефспам отдельно в метрике - переходы с сайтов.Как вариант - смотреть логи посещений сервера, сравнивать по времени с метрикой, определять айпи и подсеть откуда заход по конкретному переходу якобы с сайта, чтобы вычислить паттерн.А отчет переходов по рекламе (?utm_source=) - отдельно.В топике речь про переходы с сайтов.Требовать конкретное волшебное решение, на конкретный случай - глупо.Я вроде четко показал, что все возможно, если подходить к вопросу в комплексе.
Юзер агенты у ботов такие же как у живых пользователей,
Я писал вот про такие случаи. Ну или когда пустой юзерагент, либо юзерагент из списка автоматических запросов, наподобие Wpscan или Screaming Frog.
Опишите пожалуйста их логику, чтобы было понятно, как можно применить ваш совет с демонстрацией такого результативного скриншота.
Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.
- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков- все что обращается туда, куда человек не обращается- все что выходит за паттерн запроса человеком- явные (битерика энд компани) и неявные подсети, хостеры и проч- явные боты- различные ддос паттерны атак
Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.
...
Тратить ресурсы на то, что в результате скорее всего приведет к таким простым рекомендациями, которые выше изложены - затея довольно напрасная.
Это сейчас, когда разжевано, это выглядит просто и логично.Меня допустим спасло что там связка клауд + кеширование. Ничего не падало, но насколько помню в вебмастере начало ругаться на что-то, я полез проверять. А если вебмастера нет? Обычно только такие гики как мы, здесь присутствующие, такие фичи ставят используют. А так бы повыпадали страницы из индекса, потому что замедлился бы сайт и бот не получал бы долго ответ. Слетели бы позиции. Т.е. тот же результат что и при ддос, но хитрее и внешне незаметнее.А когда у меня взбесился яндекс бот, это выглядело из разряда ахтунг что делать, откуда это, за что хвататься. И ноль инфы в инете.Ну только набросы в вентилятор, наподобие топикстартер не умеет, сам наплодил ссылок начудил, сам скормил боту, у него неправильная цмс нужно показать ему кусок кода из хелпа про 301 редирект, плохо логи посмотрел, и вообще сам дурак.
Вот это я не смогу сказать, может быть вы подскажите как это определить? Я только вижу внутренние переходы, которые начинаются со страницы site.ru/articles/.
.
У вас есть логи сервера, логи клауда и метрика. Было бы желание, а сопоставить все это и определить зависимость - вопрос решаемый.
И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.
Т.е. весь сыр-бор только для того, чтобы вынудить вебмастера зайти в Вебмастер и снизить скорость обхода поискового робота?
Как правило, внешне со стороны владельца это выглядит так: сайт стал тормозить или вообще открываться через раз. Все. Почему - непонятно и неизвестно.Чтобы найти причину, нужно:- быть зарегистрированным в вебмастере, вероятность малая, если владелец не шарит, как правило это так- на хостинге должны вестись логи посещений, эта галка нажата обычно через раз, больше даже попадается что логов нет- уметь читать эти логи, увидеть что это запросы от бота яндекса- знать, что в вебмастере существует возможность ограничить скорость обхода, вероятность низкая- знать о существовании файла роботс и что там можно задавать директивы, уметь это делать, вероятность низкая- знать о том, что это такая атака, хитросделанная - вероятность низкаяПоэтому, как правило, атака эффективна, и фатальна для относительно слабых хостинг планов. Да и последствия вброса такого количества 404 страниц в обход тоже явно будут. Мне попадалось, что яндекс в сутки вот так сканировал до 100 000 несуществующих страниц. И так несколько дней подряд.