Антоний Казанский

Антоний Казанский
Рейтинг
796
Регистрация
12.04.2007
Должность
Частный интернет-маркетолог и SEO специалист
Интересы
Интернет-маркетинг, SEO, интернет реклама
Подробности на сайте https://akazansky.ru
sagamorr #:

А вот анализирую массив, можно найти закономерности.

С помощью JS обработок можно быстрее обработать массив и отфильтровать нужные данные.

После того как будут готовы фингерпринты, уже можно все логи только по ним сигментировать.

Заморочиться конечно можно. Но получить все FP отпечатки можно только из анализа гостевого браузера, а значит нужно писать функционал, который будет это делать.

Я перечитал информацию на первой странице - всё это звучит симпатично, но это реализация уровня командной работы, простому вебмастеру её не поднять.

При всём уважении к автору - это всё-таки гипотеза и некоторые наработки (без пруфов и доказательств широкого практического применения это можно воспринимать только как частное мнение). Если бы это было уверенное решение c высоким уровнем точности обнаружения, то автору надо не с нами беседовать, а скорее её Яндексу продать, либо реализовать свой сервис, ибо спрос на такие услуги, я уверен, огромный.


sagamorr #:
Поведение у юзеров, у ботов - это сценарии и все они достаточно примитивные. Единственная цель - обмануть метрику, поэтому если это можно будет сделать в 2-3 действия, то сценарий на 20 действий никто делать не будет.

Поведение у юзеров и ботов всё-таки разное. Цели у накрутчиков могут быть не только обмануть Метрику, что касается сценариев - тут тоже всё индивидуально.

Я пишу десятки сценариев и на это уходит десятки часов. Как-то язык не поворачивается их называть примитивными. Как закончу рефакторинг своего рабочего алгоритма - скину вам общую визуализацию, посмотрите на общий объем рабочих поинтов, уверяю, это не 2-3 действия.

sagamorr #:
Товарищ на первой странице написал принцип вычисления ботов.
sagamorr #:
Установка JS ловушек, по ним вычисляют спам сеть, анализируют по ней посещения и формирует фингерпринты.

Это уже надстройки, они к тестовому анализу логов в целом не имеют отношения. 

Так-то конечно, можно и свой Saas сервис написать. Но мы же просто анализируем текстовую информацию из лога, а там всё довольно скупо.


sagamorr #:
Согласен с ним, что ботоводы не сильно заморачиваются со сценариями и все их можно вычислить по поведению и другим метрикам.

Заморачиваются по разному, анализ поведения - это задача уже совсем другого порядка. Не парсинг текстовых данных.

Александр #:
После осознания того, что данные ЯМетрики не всегда достоверные, то и анализ строить по ним - это есть путь в никуда.

Я бы не сказал, что они недостоверные, просто критерии учёта разные.

Это проблема того же порядка, что если сравнить данные разных счётчиков, то показатели будут иметь расхождения. 

В принципе, идея считать вообще всё, что фиксируется в логе - идея понятная и в частном случае, пожалуй, востребованная.

Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.

C формальными ботами (кои ботами представляются) - здесь понятно.


Александр #:
В любом случае, ценной инфо сегодня вывез вагон, буду разгребать и учить ;)

Это всегда здОрово, этим сообщество и ценно 😉

Дополню. В принципе для анализа логов есть программы (например, WebLog.Expert) которые как раз формируют итоговую статистику из лога.

Не сказать, что там прям всё удобно и исчерпывающая аналитика (возможность написать функционал для себя - это вызывает уважение), но для какого-то обзорного анализа вполне себе.

Александр #:
Это проделано, нет проблем по пробелу или по кавычкам, или по скобкам рассортировать данные из логов по параметрам.

Это понятно, это классическая задача парсинга - разобрать данные и расформировать по областям.

Применительно к Excel есть импорт csv данных - всё понятно.

Вопрос в другом - какие задачи будут сформированы в связи с обнаруженным?


Александр #:
Проблема в том, что Яндекс в эту статистику "выплевывает", в том числе, бототраф. Агрегирует данные, в том числе, в отчеты по кликам, по запросам и т.д. - с бототрафом.
Поэтому, на его отчеты, в данном случае, надежды мало.

Да, всё верно, часть бототрафика Яндекс фильтрует и не выводит в статистику, "удачных" поведенческих ботов он пропускает.


Александр #:
Я спрашивал: кто еще по отфильтрованным логам пытается строить структуры по кол-ву посещений на конкретные url и т.д.? Или какие еще отчеты строит кто (если вообще строит)?

Большого смысла в построении этих отчётов ради отчётов я не вижу. Отчитываться для чего? То, то есть разного уровня боты - понятно.

С большинством из них нет особого резона бороться, потому что конкретной полезности это не принесет.

Ну, например, мы заблочим ещё полтора десятка технических ботов парсящих данных для каких-то своих служебных целей. В плане снижения нагрузки - это какие-нибудь десятые или соты доли процента. На позиции это никаких не повлияет. Т.е. если бы мы о них не знали, то результат был бы тот же, а также + время и усилие на выявление и доп. заградительные меры.

Разве что удовлетворение от чистого знания, что само по себе конечно может мотивировать.


Александр #:
Банальный пример: ЯМетрика дает одну инфо, а по логам у меня - другая.

Конечно другая. Такая картинка будет не только с Яндекс Метрикой, но и с любой другой статистикой, которая усредняет и формализует статистические данные.


Александр #:
Я для теста взял стандартный код - и там тоже расхождения с логами, причем - ощутимые.

Да и это будет доп. повод для волнения. 

Что планируете делать с этим знаниями?


Александр #:
Можно списать на то, что ЯМетрика ботов таким образом фильтрует, только вот момент: то, что ЯМтерика считает по ЯВебвизору (что удалось сличить) пользователем - по факту оказывается - ботом (и по логам это видно).

Иногда то, что отдельная сессия - это бот может быть понятно только по фактическому наблюдению за характером и способом перемещении мыши.

По логам мы заранее это никак не узнаем. 

Александр :
Встали несколько вопросов:
Что еще вы анализируете по логам?
Какими сервисами по анализу логов вы пользуетесь?

Александр, со стартового поста я не понял, какую задачу для себя ставили? Просто отсортировать данные логов и добиться более наглядного представления? 

Есть же статистика, которая выполняет функция мониторинга код 200, код 404, код 500. Да,  тот же Яндекс выводит её с задержкой, но зато нужным образом агрегирует данные.

Отвечая на вопрос, что по логам - заходы с конкретного IP, иногда смотрю индексаторы (Гугл временами любит долбиться по одним и тем же адресам - полезно контролировать его поведение и результативность).

+ всякого рода бот сборщики, пробивальщики, но когда это не перегружает сервер - хай себе ходят, от всего не закроешься. 

Можно конечно постоянно вылизывать htaccess на предмет доп. запретов, но как правило рабочее время лучше потратить на более очевидные точки роста по трафику. 

-= Serafim =- #:
Никак, создавать ИМ с товарами, которые могут достать все, нужно было лет 15 назад, чтобы заработать, сейчас идти в развитый конкурентный рынок глупо. Можно только идти с эксклюзивными товарами, но на то они и уникальные, что доступны мало кому или никому не нужны. У каждого формата бизнеса есть цикличность от новизны до перегретости. Если в то, чем вы занимаетесь может войти любой и об этом знает каждый, то это невыгодно.

Здесь вот что необходимо добавить.

Рынок постоянно в динамике и есть такое явление как естественная убыль поставщиков товара, поэтому конкуренция - это не то, что по экспоненте растёт вверх.

Периодами спрос может превышать предложение и это хороший момент, чтобы зайти на рынок.

не хаос #:
Нашел в сети такую инфу, это не фейк?

Не фейк. Просто надо понимать о чём тут идёт речь.

Речь идёт о инструкциях в robots.txt на то, чтобы роботы, которые представляются указанными (в поле User-Agent) по возможности не индексировали сайт.

Так вот.

Указанные сервисы просто игнорируют данные инструкции, во-вторых, здесь речь про ботов - сборщиков данных. Они (кроме доп. нагрузки на сервер) не создают серьёзных проблем.

Серьёзные проблемы создают поведенческие боты, которые имитируют действия пользователей в браузере и при умелом использовании (того, кто ими управляет) засчитываются статистикой как люди.

не хаос #:
Есть какие-нибудь плагины или простенькие настройки для вордпрес, чтобы отсечь ботов сайтов

Простеньких нет, простенькие работают по простеньким принципам на уровне отсева IP-шников по готовым базам и серым подсетям.

Парсинг, ботогенерация (и задачи связанные с ними) - это теперь отдельные специализации и простых решений взять и избавить свой сайт от всего этого здесь нет.

Даже CF обходится поведенческими ботами, когда очень надо. 

NoMoreContent #:
По другим вашим постам можно понять, что вы действительно оптимистичный и позитивный человек. Это отличные качества.

"Оптимизм - это наш долг" -  говорил один известный немецкий политик. 

Однако этот оптимизм только по части возможностей подкрепленных упорным трудом, пустой оптимизм - это введение в заблуждение :)


NoMoreContent #:
Но на том уровне вопросов, что заданы в первом посте темы, вероятность получить прибыль выглядит ниже, чем в случае со стартом на маркетплейсах.

Соглашусь с вами, в варианте разработки стратегии продвижения маркетплейсы выглядят более подходящими для старта и практического понимания возможностей бизнеса.

Всего: 12801