Логи посещений сайтов

123
NoMoreContent
На сайте с 14.05.2023
Offline
23
#11
sagamorr #:

А вы блокируете ботов уже непосредственно на сайте, т.е уже после посещения? До загрузки метрики вычислить бота наверное невозможно?

Может быть вам ваши наработки в софт монетизировать?

Метрика, GA и подобные JS-инструменты - это в основном для маркетологов. 

Больше того, если на бэкенде мы видим, что пришел бот, то скрипты аналитики ему (часто) не отдаются, чтобы не засорять отчеты для маркетинга. 

Бот обычно вычисляется за несколько запросов к точке входа приложения. С блокировкой - сложный вопрос. Есть процент настоящих клиентов, которые зачем-то покупают VPN-ки в чернейших подсетях. У таких изначально хуже ботовый рейтинг, но обычно даже их принято пропускать. 

Александр
На сайте с 18.03.2020
Offline
144
#12
NoMoreContent #:
Маркетинг считают в основном по аналитическим логам. То есть бэкенд-логи это в основном антифрод. А маркетологи работают по данным ГуглАналитикс(360) или другим подобным системам. 

Они "загажены" ботами.
Чтобы почистить трафик - полез в логи. Чтобы понять что там происходит - поднялся вопрос: надо сортировать.
Отсортировал по всем параметрам и стал думать: что еще можно смотреть по логам, так как JS-аналитика (метрики) - загажены. Прежде чем их анализировать, надо чистить, а потом уже сверяться.

Вот вопросы: так как данных будет много и таблицы не справятся со строками - какие программы есть для сортировок. Какие методы есть? Что еще можно смотреть по логам в плане маркетинга, так как в сети много статей на этот счет, но там рерайт на рерайте, лучше поинтересоваться у профильного комьюнити.

Хорошо, что создал тему. Предполагаемый пул действий подтвердился - на верном пути.

Антоний Казанский
На сайте с 12.04.2007
Offline
617
#13
Александр :
Встали несколько вопросов:
Что еще вы анализируете по логам?
Какими сервисами по анализу логов вы пользуетесь?

Александр, со стартового поста я не понял, какую задачу для себя ставили? Просто отсортировать данные логов и добиться более наглядного представления? 

Есть же статистика, которая выполняет функция мониторинга код 200, код 404, код 500. Да,  тот же Яндекс выводит её с задержкой, но зато нужным образом агрегирует данные.

Отвечая на вопрос, что по логам - заходы с конкретного IP, иногда смотрю индексаторы (Гугл временами любит долбиться по одним и тем же адресам - полезно контролировать его поведение и результативность).

+ всякого рода бот сборщики, пробивальщики, но когда это не перегружает сервер - хай себе ходят, от всего не закроешься. 

Можно конечно постоянно вылизывать htaccess на предмет доп. запретов, но как правило рабочее время лучше потратить на более очевидные точки роста по трафику. 

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Александр
На сайте с 18.03.2020
Offline
144
#14
Антоний Казанский #:
Александр, со стартового поста я не понял, какую задачу для себя ставили? Просто отсортировать данные логов и добиться более наглядного представления? 

Это проделано, нет проблем по пробелу или по кавычкам, или по скобкам рассортировать данные из логов по параметрам.

Антоний Казанский #:
Есть же статистика, которая выполняет функция мониторинга код 200, код 404, код 500. Да,  тот же Яндекс выводит её с задержкой, но зато нужным образом агрегирует данные.

Проблема в том, что Яндекс в эту статистику "выплевывает", в том числе, бототраф. Агрегирует данные, в том числе, в отчеты по кликам, по запросам и т.д. - с бототрафом.
Поэтому, на его отчеты, в данном случае, надежды мало.

Я спрашивал: кто еще по отфильтрованным логам пытается строить структуры по кол-ву посещений на конкретные url и т.д.? Или какие еще отчеты строит кто (если вообще строит)?

Банальный пример: ЯМетрика дает одну инфо, а по логам у меня - другая. Я задавал вопрос Роману в соответствующей теме, но он посетовал на то, что у меня ЯМетрика модернизированная. Я для теста взял стандартный код - и там тоже расхождения с логами, причем - ощутимые.
Можно списать на то, что ЯМетрика ботов таким образом фильтрует, только вот момент: то, что ЯМтерика считает по ЯВебвизору (что удалось сличить) пользователем - по факту оказывается - ботом (и по логам это видно).
Так что, на ЯМетрику сейчас нет никакой надежды... На вебмастер, с его отчетами - тоже нет надежды...

Антоний Казанский
На сайте с 12.04.2007
Offline
617
#15
Александр #:
Это проделано, нет проблем по пробелу или по кавычкам, или по скобкам рассортировать данные из логов по параметрам.

Это понятно, это классическая задача парсинга - разобрать данные и расформировать по областям.

Применительно к Excel есть импорт csv данных - всё понятно.

Вопрос в другом - какие задачи будут сформированы в связи с обнаруженным?


Александр #:
Проблема в том, что Яндекс в эту статистику "выплевывает", в том числе, бототраф. Агрегирует данные, в том числе, в отчеты по кликам, по запросам и т.д. - с бототрафом.
Поэтому, на его отчеты, в данном случае, надежды мало.

Да, всё верно, часть бототрафика Яндекс фильтрует и не выводит в статистику, "удачных" поведенческих ботов он пропускает.


Александр #:
Я спрашивал: кто еще по отфильтрованным логам пытается строить структуры по кол-ву посещений на конкретные url и т.д.? Или какие еще отчеты строит кто (если вообще строит)?

Большого смысла в построении этих отчётов ради отчётов я не вижу. Отчитываться для чего? То, то есть разного уровня боты - понятно.

С большинством из них нет особого резона бороться, потому что конкретной полезности это не принесет.

Ну, например, мы заблочим ещё полтора десятка технических ботов парсящих данных для каких-то своих служебных целей. В плане снижения нагрузки - это какие-нибудь десятые или соты доли процента. На позиции это никаких не повлияет. Т.е. если бы мы о них не знали, то результат был бы тот же, а также + время и усилие на выявление и доп. заградительные меры.

Разве что удовлетворение от чистого знания, что само по себе конечно может мотивировать.


Александр #:
Банальный пример: ЯМетрика дает одну инфо, а по логам у меня - другая.

Конечно другая. Такая картинка будет не только с Яндекс Метрикой, но и с любой другой статистикой, которая усредняет и формализует статистические данные.


Александр #:
Я для теста взял стандартный код - и там тоже расхождения с логами, причем - ощутимые.

Да и это будет доп. повод для волнения. 

Что планируете делать с этим знаниями?


Александр #:
Можно списать на то, что ЯМетрика ботов таким образом фильтрует, только вот момент: то, что ЯМтерика считает по ЯВебвизору (что удалось сличить) пользователем - по факту оказывается - ботом (и по логам это видно).

Иногда то, что отдельная сессия - это бот может быть понятно только по фактическому наблюдению за характером и способом перемещении мыши.

По логам мы заранее это никак не узнаем. 

V
На сайте с 17.11.2010
Online
227
#16
Александр #:
Я спрашивал: кто еще по отфильтрованным логам пытается строить структуры по кол-ву посещений на конкретные url и т.д.? Или какие еще отчеты строит кто (если вообще строит)?

Я строю, примерно дошел до этой мысли так же как и вы, но для себя пишу программу, на C#, которая вообще работает, со всем  что мене надо. В том числе и анализирует логи. Так же в процессе добавляю, что мне надо, исправляю. Само собой программа личная,  не для распространения, ну по крайне мере на текущий момент.

Антоний Казанский
На сайте с 12.04.2007
Offline
617
#17

Дополню. В принципе для анализа логов есть программы (например, WebLog.Expert) которые как раз формируют итоговую статистику из лога.

Не сказать, что там прям всё удобно и исчерпывающая аналитика (возможность написать функционал для себя - это вызывает уважение), но для какого-то обзорного анализа вполне себе.

Александр
На сайте с 18.03.2020
Offline
144
#18
Антоний Казанский #:
Что планируете делать с этим знаниями?

После осознания того, что данные ЯМетрики не всегда достоверные, то и анализ строить по ним - это есть путь в никуда.
Логическим завершением этого акта будет - своя метрика, которая будет опираться на данные из логов сервера.
А как фильтровать ботов: товарищ выше меня натолкнул ;)

В любом случае, ценной инфо сегодня вывез вагон, буду разгребать и учить ;)

Александр
На сайте с 18.03.2020
Offline
144
#19
Антоний Казанский #:
Вопрос в другом - какие задачи будут сформированы в связи с обнаруженным?

Это я изложил в первом посте: рассортировал по ответам сервера и прочим моментам.
Интересовала инфо: кто какие отчеты строит, помимо стандартной сортировки, потому, что на просторах интернета инфо настолько "пестрая", настолько она и "пресная".

Ну и программы какие кто использует - уже выяснили, пойду ковырять функционал.

Антоний Казанский
На сайте с 12.04.2007
Offline
617
#20
Александр #:
После осознания того, что данные ЯМетрики не всегда достоверные, то и анализ строить по ним - это есть путь в никуда.

Я бы не сказал, что они недостоверные, просто критерии учёта разные.

Это проблема того же порядка, что если сравнить данные разных счётчиков, то показатели будут иметь расхождения. 

В принципе, идея считать вообще всё, что фиксируется в логе - идея понятная и в частном случае, пожалуй, востребованная.

Однако как в статическом виде отличать ботов от пользователей я себе например не представляю. Запись в логе - это перечень post/get запросов и в них в отношении поведенческих ботов нет признаков, что это бот.

C формальными ботами (кои ботами представляются) - здесь понятно.


Александр #:
В любом случае, ценной инфо сегодня вывез вагон, буду разгребать и учить ;)

Это всегда здОрово, этим сообщество и ценно 😉

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий