sagamorr

Рейтинг
236
Регистрация
12.10.2012
11
GuruSite24 #:

Если совсем вкратце, то баним и фильтруем все то, что здесь и так обсуждается в теме. Только в более расширенном составе, не отдельными несвязанными кусочками. Не 5-10 строчек, как когда-то было на VC и преподносится обычно прямо как Грааль, а 150.

- сканеры, парсеры, спамеры и проч, в том числе то что пропускает клауд через белый список, но в наших широтах не нужно
- все что имеет поддельный юзерагент, включая тех кто притворяется ботами поисковиков
- все что обращается туда, куда человек не обращается
- все что выходит за паттерн запроса человеком
- явные (битерика энд компани) и неявные подсети, хостеры и проч
- явные боты
- различные ддос паттерны атак

Сами паттерны, естественно, нарабатываются только практикой решения той или иной задачки, для разных цмс, плюс постоянно появляется/добавляется что-то новое, по мере развития боторынка. Который растет не по дням, а по часам.

Ну и опять же, на графике четко видно, что и поиск можно подрихтовать. Припали не только прямые заходы, реферальные заходы, но и та часть что через поиск пробирается. Это не подсовывая людям капчу.
Остальное дошлифовывается до устраивающего результата более тонкой настройкой. С изучением логов сервера и метрики, логов клауда.


Юзер агенты у ботов такие же как у живых пользователей, AS сети тоже могут быть какие угодно, запросы тоже как правило - просто url страницы без доп атрибутов.

Для фильтрации-блокировки прямых заходов проверяют пустого реферера.

Для фильтрации реф спама (который определятся в метрике Другая реклама: определено по меткам) нужно проверять URI на вхождение utm.

Если знаете как бороться с ботами, у которых поддельный сайт в реферере - напишите что то конкретное.

А то пока просто воду льете.

GuruSite24 #:

И будет не рабочее. Это сбивается не специально нацеленными на рефспам правилами, а комплексом различных фильтров, в целом против ботов. Естественно, есть основное ядро правил, а есть постоянно дорабатываемые строчки в них, которые добавляются по мере развития боторынка. Задумывался как-то на эту тему, почему оно работает и какое из правил режет рефспам. Потом плюнул - работает и работает.

Если на сайт прут боты с поддельными реферами, то как остальной набор правил поможет отфильтровать данный тафик?

Напишите правило или опишите принцип по которому вы блокируете-фильтруете спам переходы, в которых реферальный сайт подделывается. (В метрике такой трафик в переходы по ссылкам попадает).

Народ подскажите как блокировать реф спам через htacces?

Переходы, которые в метрике определяются - Другая реклама: определено по меткам

Многие писали вот такое правило, но оно не работает:

RewriteCond %{QUERY_STRING} utm [NC]
RewriteRule (.*) $1? [R=301,L]
Пишу сюда, т.к в тематической ветке никто не ответил.
GuruSite24 #:

Серьезно?
Решения, естественно, есть.



Поделитесь, пока все что предлагали на форуме не рабочее.
TheVS #:
Все заблокированные прямые заходы и заходы по несуществующим ссылкам заменяются заходами с Яндекса, которые без его участия невозможно распознать.
Как я это понял? Есть сайт с учебными материалами по специфичной технике, которой 15-20 лет, на данный момент она совершенно точно не используется из-за устаревания и отсутствия расходников. Т.е. вероятность того, что ее будут искать по точным запросам нулевой. Таких страниц десятки, за месяц они набирают сотни переходов с Яндекса. Если отключить все блокировки, то отлично видно, что бот делает прямой заход на такую никому не нужную страницу, а через несколько десятков секунд на нее следует заход с поиска по вполне осмысленному запросу, причем в половине случаев из сетей, которые в массовом спаме не замечены.
Т.е. даже думая, что вы все очистили может оказаться, что ботов у вас больше, чем реальных людей.
Я протестировал cf почти на 20 сайтах, и в моем случае стандартные методы не помогли ни разу. Хоть какой-то эффект есть на молодых сайтах с низкими показателями, на сайтах старше 10 лет заходящих с Яндекса ботов минимум 20%. На вышеупомянутом сайте по устаревшей технике стабильно больше 90%, хотя внешне кажется, что около 0. Интересно, что Яндекс метрика видит, что это боты, но ничего с этим не делает.

Бред... Вы хотите сказать, что на 20 сайтах, после блокировки-фильтрации прямых заходов, это количество ушло в переходы с поиска Яндекса?

У меня на одном из сайтов до установки CF, прямых заходов было по количеству столько же сколько с поиска и так на протяжении нескольких месяцев. После фильтрации через CF, прямые ушли, остался только трафик из поиска.

Яндекс Бизнес - это днище, эффекта 0. Лучше уж на директ эти деньги потратить, толку больше будет.
TheVS #:

Не получается отфильтровать заходящих с поиска, без этого блокировка всего остального не имеет смысла. CF фильтрует только то, что имеет явные признаки ботов, которых и без него заблокировать не сложно.

Вот тут на одном из сайтов стоит капча на мегафон, ртк, битерику и на прямые заходы с мобильного гугл хрома. Какой эффект в % по вашему мнению это должно дать?


Ботов с поиска пусть Яндекс сам фильтрует, по ним у него уже какая то история есть.

Вопрос про прямые заходы. В чем сложность отфильтровать через CF?

Есть боты которые обходят проверки, но это все равно пара десятков макс, а не сотки и тысячи. Если задаться целью, то можно спам сети для прямых заходов еще отфильтровать. Как например вы писали про  25159, есть и еще подобные.

Форумчане подскажите как блокировать реф спам через htacces?

Это правило не работает:

RewriteCond %{QUERY_STRING} utm [NC]

RewriteRule (.*) $1? [R=301,L]
WantNight #:
А кто то пробовал допустим выводить 2 капчи по очереди? Сначала от гугл, потом от CloudFlare?
Создал два правила,  все получилось, буду анализировать. До этого просто блокал прямые заходы без реферера, но надоело.
В смысле выводить капчу от гугл? Опишите поподробнее.
TheVS #:
Свой эксперимент считаю завершённым. Ботов, заходящих по ссылкам, и прямые заходы можно отфильтровать с эффективностью ~0-100% в зависимости от того, какой накрутчик с каким софтом вам попался. Но в этом нет никакого смысла, потому что эти же боты заходят с поиска (у меня 80% с яндекса), и без детального анализа вы даже не поймёте, что это боты и будете думать, что всё у вас замечательно фильтруется. Фильтровать заходящих с поиска невозможно, т.к. никаких особых признаков у них нет.
Да, можно увешаться гугл капчами и заставить абсолютно всех искать велосипеды, светофоры и хромых собак, но стоит ли оно того?

С переходами по ссылкам да, рабочего решения пока нет. А прямые заходы отлично фильтруются через CF.

Что у вас не получилось на вашем эксперименте?

Всего: 1955