Kostushko

Рейтинг
115
Регистрация
31.03.2008
nkaado #:

Боты по прямым заходам ходить перестали.

Какая то для меня новая хрень. Надо подождать чутка и банить все эти переходы.

Они в логах сервера-то есть или это все тот же спам метрики напрямую?

Артемий #:

Нет, не браузера, а протокола TLS - https://stormwall.pro/knowledge-base/termin/tls-fingerprinting

У каждого браузера он разный, у библиотек для работы с HTTP запросами тоже. Если в UserAgent передается от браузера Chrome, а по JA3 Fingerprint выяснится, что используется curl (для этого копится статистика), то можно смело блокировать такой запрос. Насколько знаю, аналогичная защита есть у Cloudflare, было бы неплохо, если бы и Яндекс.Метрика у себя внедрила.

Понял, спасибо за пояснения, идея здравая. Надо пинать яндекс метрику, чтобы шевелились и что-то делали...

sagamorr #:
Получается дураки ботоводы разоряются на дорогие прокси, всякие фишки с распознаванием капчки, эмуляторы браузеров и тд. Я конечно не спец, но выглядит все это как бред...

Прокси нужны чтобы был другой внешний ip для запроса к метрике https://mc.yandex.ru/watch/999999, я дальше не буду объяснять, вы то ли тролите, то ли реально не понимаете как ваш и другие сайты работают.

Артемий #:

Нужно, чтобы Яндекс.Метрика внедрила защиту от поддельных HTTP запросов, например, сверять TLS Fingerprint и принимать запросы по TLS 1.2 и выше. Это тоже можно обойти, но нужно хоть с чего то начинать.

Пока выхода вижу две: либо создать новый счетчик, а старый удалить, т.к не думаю, что бот ежедневно парсит ID счетчика. Либо создать зеркало mc.yandex.ru, но на практике не пробовал.

Если создать зеркало mc.yandex.ru - то все запросы у вас будут с одного ip (с ip зеркала) - яндекс на это не просто плохо посмотрит, скорее всего будут явные проблемы с отображением гео инфы по статистике и возможно весь трафик зафильтруется внутренними алгоритмами метрики.

Про TLS Fingerprint что-то не в теме - это типа низкоуровневого отпечатка браузера, по которому боты метрикой будут распознаны как одинаковые? А сейчас метрика считает что каждый день заходят новые 500 "посетителей" - ботов, но судя по повторам ip это далеко не так.

sagamorr #:

Про отображения данных на сайте метрики - это понятно. Вопрос по сбору статистики, каким образом накручивают данные конкретного счетчика не заходя на сайт. Как это реализовано технически, напишите если понимаете принцип.

Причем тут отображение на сайте метрики, все данные к яндексу уходят через запросы вида https://mc.yandex.ru/watch/999999... Еще раз все данные с вашего сайта со счетчиком метрики уходят в метрику только в виде таких запросов и их можно спокойно воспроизвести без сайта. Как реализовано технически: смотрите справку по fetch curl и прочим подобным функциям в зависимости от языка.

Mik Foxi #:
Я изучаю ботов, чтоб у меня был эффективный антибот

Еще лучше, у вас есть эффективный способ отсеять ботов спамящих метрику (кроме удаления метрики)? Полагаю тут можно только сосредоточится на поиске бота собирающего id счетчиков и прятать метрику от него но он явно заходит с выдачи, у него будет адекватный реферер, юзерагент и поведение не позволяющее его вычислить (зашел, подождал, покрутил страницу, возможно еще подождал и вышел).

Mik Foxi #:
знаю, применяю, по нормальному по сайтам ходить - никакого трафика не напасешься с медленными мобильными проксями.

Ну вот, и как от вас защититься?

sagamorr #:

Каким образом боты спамят метрику не заходя на сайт? Чисто с технической точки зрения. Скрипт метрики встроен в файл сайта. Как можно запустить метрику, не обращаясь ни к одному файлу сайта на сервере?

Звучит как то фантастически 😀

sagamorr #:

Напишите как это технически выглядит, если понимаете, я пока не могу понять😀

Одно дело если бы метрика была отдельным файлом, но чаще всего же это JS код в футере темы. Как можно запустить код метрики не подгрузив файл футера?

Вы о чем говорите? Вся статистика метрики это просто один из запросов к сайту яндекса по адресу  https://mc.yandex.ru/watch/999999 где вместо девяток id вашего сайта... Сэмулировать такой запрос не составит никакого труда, это можно сделать хоть на каком языке, за минуты (да что там, chrome сам выдает готовый код для такого запроса). В общем вы не в теме, нажмите в браузере f12 и начните изучать вкладку сеть, откроете много нового.

Антоний Казанский #:
Никому счётчики не нужны. Кто видел/работает или хотя бы читал обсуждение шаблонов/скриптов для накрутки прекрасно знают, что парсятся тематические топы и собираются сайты для нагула. Никто не будет заниматься для себя лишней работой в поиске каких-то чужих счётчиков - это довольно бестолковое занятие. 

Это делается автоматом, тематические топы парсит специальный бот - он именно ходит по выдаче и собирает id счетчиков - ну если бы я писал такой софт - я бы сделал так и хрен бы там кто что спрятал и зашифровал. Тот бот что собирает id счетчиков запускается скорее всего напрямую с компа ботовода, так как для этого не требуется отдельного ip, а вот уже простенькие боты, которые спамят метрику запускаются в отдельных прогах, которые юзеры ставят для "заработка на переходах".

sagamorr #:
У вас боты через прямые заходы?
У меня спам идет напрямую на метрику, в метрике боты есть (прямые заходы на главную), в логах сервера их нет... То есть от таких ботов ничего не спрятать, счетчик узнает другой софт,

Антоний Казанский #:

Дима Алаев говорил и на примере собственного сайта показывал, что зашифрованная JS Метрика работает.

Инструмент здесь.

Mik Foxi #:
чтоб понять что шифрация метрики не спасет - не нужно быть гением, а нужно всего лишь понимать что это JS а шифруй его или не шифруй - браузер его все равно должен расшифровать чтоб выполнить.

Вот я тоже считаю ничего там не сработает, шифруй, прячь - бесполезно. Код счетчика собирает отдельный софт, или поток - бот заходит так сказать живым браузером на страницу, и ждет когда прогрузятся все скрипты и метрика, кликнуть куда-то, промотать страницу - там тупо по умолчанию встроено, затем код смотрит по какому id загружалась метрика. Сохраняет этот id в базу и натравливает на сайт ботов, которые уже напрямую спамят метрику, не заходя на сайт.  Вычислить этого "первопроходца" - может и можно, но для этого надо собрать исходные логи со многих сайтов, и если это окажется обычный chrome с динамическим ip - то банить будет все равно некого.

По моему, реальный вариант только один - убрать метрику. Но если её убрать в момент нашествия ботов - они продолжат спамить метрику (т.к. на сайт не заходят), и у яндекса будет уверенность что на сайт ходят только эти боты, это может еще хуже сказаться на позициях, чем просто нашествие ботов.

5ELF #:
Правильно говорите, поддерживаю.

Подскажите как спрятать метрику, если любой подобный софт тянет с собой  специальную версию chromе и имеет полный доступ к спискам загружаемых сайтом ресурсов, а в этом списке метрика сразу раскрывает id сайта.

Всего: 111