А вот анализирую массив, можно найти закономерности.
С помощью JS обработок можно быстрее обработать массив и отфильтровать нужные данные.
После того как будут готовы фингерпринты, уже можно все логи только по ним сигментировать.
Заморочиться конечно можно. Но получить все FP отпечатки можно только из анализа гостевого браузера, а значит нужно писать функционал, который будет это делать.
Я перечитал информацию на первой странице - всё это звучит симпатично, но это реализация уровня командной работы, простому вебмастеру её не поднять.
При всём уважении к автору - это всё-таки гипотеза и некоторые наработки (без пруфов и доказательств широкого практического применения это можно воспринимать только как частное мнение). Если бы это было уверенное решение c высоким уровнем точности обнаружения, то автору надо не с нами беседовать, а скорее её Яндексу продать, либо реализовать свой сервис, ибо спрос на такие услуги, я уверен, огромный.
Поведение у юзеров и ботов всё-таки разное. Цели у накрутчиков могут быть не только обмануть Метрику, что касается сценариев - тут тоже всё индивидуально.
Я пишу десятки сценариев и на это уходит десятки часов. Как-то язык не поворачивается их называть примитивными. Как закончу рефакторинг своего рабочего алгоритма - скину вам общую визуализацию, посмотрите на общий объем рабочих поинтов, уверяю, это не 2-3 действия.
Это уже надстройки, они к тестовому анализу логов в целом не имеют отношения.
Так-то конечно, можно и свой Saas сервис написать. Но мы же просто анализируем текстовую информацию из лога, а там всё довольно скупо.
Заморачиваются по разному, анализ поведения - это задача уже совсем другого порядка. Не парсинг текстовых данных.
Я бы не сказал, что они недостоверные, просто критерии учёта разные.
Это проблема того же порядка, что если сравнить данные разных счётчиков, то показатели будут иметь расхождения.
В принципе, идея считать вообще всё, что фиксируется в логе - идея понятная и в частном случае, пожалуй, востребованная.
Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.
C формальными ботами (кои ботами представляются) - здесь понятно.
Это всегда здОрово, этим сообщество и ценно 😉
Дополню. В принципе для анализа логов есть программы (например, WebLog.Expert) которые как раз формируют итоговую статистику из лога.
Не сказать, что там прям всё удобно и исчерпывающая аналитика (возможность написать функционал для себя - это вызывает уважение), но для какого-то обзорного анализа вполне себе.
Это понятно, это классическая задача парсинга - разобрать данные и расформировать по областям.
Применительно к Excel есть импорт csv данных - всё понятно.
Вопрос в другом - какие задачи будут сформированы в связи с обнаруженным?
Да, всё верно, часть бототрафика Яндекс фильтрует и не выводит в статистику, "удачных" поведенческих ботов он пропускает.
Большого смысла в построении этих отчётов ради отчётов я не вижу. Отчитываться для чего? То, то есть разного уровня боты - понятно.
С большинством из них нет особого резона бороться, потому что конкретной полезности это не принесет.
Ну, например, мы заблочим ещё полтора десятка технических ботов парсящих данных для каких-то своих служебных целей. В плане снижения нагрузки - это какие-нибудь десятые или соты доли процента. На позиции это никаких не повлияет. Т.е. если бы мы о них не знали, то результат был бы тот же, а также + время и усилие на выявление и доп. заградительные меры.
Разве что удовлетворение от чистого знания, что само по себе конечно может мотивировать.
Конечно другая. Такая картинка будет не только с Яндекс Метрикой, но и с любой другой статистикой, которая усредняет и формализует статистические данные.
Да и это будет доп. повод для волнения.
Что планируете делать с этим знаниями?
Иногда то, что отдельная сессия - это бот может быть понятно только по фактическому наблюдению за характером и способом перемещении мыши.
По логам мы заранее это никак не узнаем.
Александр, со стартового поста я не понял, какую задачу для себя ставили? Просто отсортировать данные логов и добиться более наглядного представления?
Есть же статистика, которая выполняет функция мониторинга код 200, код 404, код 500. Да, тот же Яндекс выводит её с задержкой, но зато нужным образом агрегирует данные.
Отвечая на вопрос, что по логам - заходы с конкретного IP, иногда смотрю индексаторы (Гугл временами любит долбиться по одним и тем же адресам - полезно контролировать его поведение и результативность).
+ всякого рода бот сборщики, пробивальщики, но когда это не перегружает сервер - хай себе ходят, от всего не закроешься.
Можно конечно постоянно вылизывать htaccess на предмет доп. запретов, но как правило рабочее время лучше потратить на более очевидные точки роста по трафику.
Здесь вот что необходимо добавить.
Рынок постоянно в динамике и есть такое явление как естественная убыль поставщиков товара, поэтому конкуренция - это не то, что по экспоненте растёт вверх.
Периодами спрос может превышать предложение и это хороший момент, чтобы зайти на рынок.
Не фейк. Просто надо понимать о чём тут идёт речь.
Речь идёт о инструкциях в robots.txt на то, чтобы роботы, которые представляются указанными (в поле User-Agent) по возможности не индексировали сайт.
Так вот.
Указанные сервисы просто игнорируют данные инструкции, во-вторых, здесь речь про ботов - сборщиков данных. Они (кроме доп. нагрузки на сервер) не создают серьёзных проблем.
Серьёзные проблемы создают поведенческие боты, которые имитируют действия пользователей в браузере и при умелом использовании (того, кто ими управляет) засчитываются статистикой как люди.
Простеньких нет, простенькие работают по простеньким принципам на уровне отсева IP-шников по готовым базам и серым подсетям.
Парсинг, ботогенерация (и задачи связанные с ними) - это теперь отдельные специализации и простых решений взять и избавить свой сайт от всего этого здесь нет.
Даже CF обходится поведенческими ботами, когда очень надо.
"Оптимизм - это наш долг" - говорил один известный немецкий политик.
Однако этот оптимизм только по части возможностей подкрепленных упорным трудом, пустой оптимизм - это введение в заблуждение :)
Соглашусь с вами, в варианте разработки стратегии продвижения маркетплейсы выглядят более подходящими для старта и практического понимания возможностей бизнеса.