Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.
- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков- все что обращается туда, куда человек не обращается- все что выходит за паттерн запроса человеком- явные (битерика энд компани) и неявные подсети, хостеры и проч- явные боты- различные ддос паттерны атак
Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.
Юзер агенты у ботов такие же как у живых пользователей, AS сети тоже могут быть какие угодно, запросы тоже как правило - просто url страницы без доп атрибутов.
Для фильтрации-блокировки прямых заходов проверяют пустого реферера.
Для фильтрации реф спама (который определятся в метрике Другая реклама: определено по меткам) нужно проверять URI на вхождение utm.
Если знаете как бороться с ботами, у которых поддельный сайт в реферере - напишите что то конкретное.
А то пока просто воду льете.
И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.
Если на сайт прут боты с поддельными реферами, то как остальной набор правил поможет отфильтровать данный тафик?
Напишите правило или опишите принцип по которому вы блокируете-фильтруете спам переходы, в которых реферальный сайт подделывается. (В метрике такой трафик в переходы по ссылкам попадает).
Народ подскажите как блокировать реф спам через htacces?
Переходы, которые в метрике определяются - Другая реклама: определено по меткам
Многие писали вот такое правило, но оно не работает:
RewriteCond %{QUERY_STRING} utm [NC]RewriteRule (.*) $1? [R=301,L]
Серьезно?Решения, естественно, есть.
Бред... Вы хотите сказать, что на 20 сайтах, после блокировки-фильтрации прямых заходов, это количество ушло в переходы с поиска Яндекса?
У меня на одном из сайтов до установки CF, прямых заходов было по количеству столько же сколько с поиска и так на протяжении нескольких месяцев. После фильтрации через CF, прямые ушли, остался только трафик из поиска.
Не получается отфильтровать заходящих с поиска, без этого блокировка всего остального не имеет смысла. CF фильтрует только то, что имеет явные признаки ботов, которых и без него заблокировать не сложно.
Вот тут на одном из сайтов стоит капча на мегафон, ртк, битерику и на прямые заходы с мобильного гугл хрома. Какой эффект в % по вашему мнению это должно дать?
Ботов с поиска пусть Яндекс сам фильтрует, по ним у него уже какая то история есть.
Вопрос про прямые заходы. В чем сложность отфильтровать через CF?
Есть боты которые обходят проверки, но это все равно пара десятков макс, а не сотки и тысячи. Если задаться целью, то можно спам сети для прямых заходов еще отфильтровать. Как например вы писали про 25159, есть и еще подобные.
Форумчане подскажите как блокировать реф спам через htacces?
Это правило не работает:
RewriteCond %{QUERY_STRING} utm [NC]
С переходами по ссылкам да, рабочего решения пока нет. А прямые заходы отлично фильтруются через CF.
Что у вас не получилось на вашем эксперименте?