Pavel Grusha

Рейтинг
1
Регистрация
11.09.2005
Zaicev:
Пожелания (для анализатора логов)
В дисскуссии несколько проскакивало пожелание, что неплохо бы было отключить обработку картинок и прочего (аля css), ну нафиг мне не нужен учет таких хитов. Вот как счас есть "Блокировать IP", сделать еще одну такую "Несчитать страницы", где можно было бы чего нибудь ввести (можно регулярным выражением) чтобы при появлении в УРЛе оного на эту строчку анализатор просто бы "забивал".

В любом нормальном анализаторе это реализовано. Смотрите в сторону фильтров. Можно отфильтровать любые нужные/не нужные хиты или визиты.

Fantomas:
Пасиб за советы; закачал я логи, проанализировал: что-то с ними не так, судя по логам, посетителей на сайте где-то 400-500 ежедневно (в будние дни), а тот же Liveinternet показывает только 150-250.... Почему?

Потому что в логах фиксируются все запросы с сайта, а счетчиком - только часть запросов страниц. Разница набегает за счет:

1. Посетителей, которые счетчик не грузили (в случае внешних счетчиков основная причина даже не отключение картинок или недостаточное время для их загрузки, а фаерволы и прокси, которые не грузят баннеры, кнопки или счетчики в целях экономии трафика)

2. Роботов. Это не посетители, но для продвижения сайта в поисковых системах эта статистика важна.

3. Посетителей, которые загрузили только картинку с вашего сайта. Например, баннер, логотип или кнопка, размещенная на другом сайте.

4. Реферный спам, когда генерируются фальшивые визиты на сайт с целью оставить в логах адрес своего сайта.

Чтобы увидеть реальных посетителей, нужно добавить фильтр на посетителей, запросивших страницы и исключить роботов. А вот реферный спам придется отлавливать вручную, просматривая статистику по ссылающимся сайтам/страницам, но зачастую спамеры облегчают эту задачу.

Fantomas:
пасиб, конечно, но поконкретнее можно?

Ну а куда конкретнее. Если у хостера в документации нет, то надо писать в сапорт. Например, у Мастерхоста по умолчанию логи не сохраняются, поэтому нужно писать в сапорт и просить их добавлять в нужном формате, а некоторые хостеры вообще логов не имеют.

Традиционно на FTP рядом с папкой "WWW" (папка, где лежат файлы сайта) должна быть папка "logs". Если такой нет, то поможет только сапорт хостера.

Avatar:
Я извиняюсь за оффтоп. Паша, ты какой-то хитрый хороший счетчик разрабатываешь?

Просто сейчас тоже начинаю задумываться о честной и корректной статистике, и по моему надо как-то логи совмещать со счетчиком. Но сам счетчик наверное на серваке своего (анализируемого) хоста...

Не понятно, к какому Павлу идет обращение ;)

Если ко мне, то счетчик я не разрабатываю, а занимаюсь анализатором лог-файлов. Какой смысл совмещать счетчик и анализатор? Если нужен подсчет уникальных посетителей - в лог-файлы можно добавить данные о куках и использовать анализатор, поддерживающий эти данные. Нужны данные о разрешении экрана пользователя - встроить в страницы сайта вызов картинки или ява-скрипта, имя которого будет содержать эту информацию, настройте фильтр в анализаторе и получите нужную статистику. Что еще требуется из того, что умеет счетчик?

А что касается "честной и корректной статистики", то такого просто не бывает из-за целого ряда факторов.

В заключении, небольшой пример, что куки далеко не всесильны и даже наоборот.

У меня есть партнер, у которого смежная по тематике программа. Он зарегистрирован афилейтом на RegNow. В старых версиях кастомизация дистрибутива была невозможна и поэтому использовался стандартный в таких случаях метод - все ссылки на мой сайт и загрузку программы шли через редирект на RegNow, который засаживал посетителю куку. Если посетитель заходит на покупку, то в теории RegNow по этой куке определяет афилейта и начисляет ему соответствующую комиссию.

В новой версии кастомизация была реализована и в конце июля я создал партнеру дистрибутив с сылками на его сайт и сразу на RegNow при покупке.

А вот теперь статистика: с января по июнь RegNow не было зафиксировано ни одного (!!!) захода от партнера. В июле таких переходов зафиксировано 2 (жаль, что нельзя посмотреть их по дням, но предполагаю, что они пришлись как раз на конец месяца), в августе - 12 переходов, за прошедшую часть сентября - 5.

Именно поэтому серьезные афилейты не расчитывают на куки, а требуют кастомизированный дистрибутив. Именно поэтому партнерские программы "за продажи" не пользуются популярностью. Впрочем, верящие в статистику по кукам могут продолжать молиться на этого бога.

Inoff:
Я объясняю не ее неполноту, а ее неверность. Кажется уже 3 раза объяснил :)

И при этом твердить о достоверности статистики у которой погрешность до 20% в самой методике и еще процентов 30 из-за других факторов. Я это объяснял не меньшее число раз.

Мое предложение в силе для любого человека, имеющего возможность поставить такой эксперимент.

Не знаю, кто из нас больше цепляется за соломинки. Объяснять неполноту статистики отсутствием кук...

Итак предложение полноценного эксперимента:

Если у кого-то, кто пользуется AWLA генерируются лог-файлы с куками или есть возможность генерировать такие лог-файлы, то можно поступить следующим образом:

Я создаю специальную версию AlterWind Log Analyzer, где отсутствуют ограничения на длительность сесии визита, формат лог-файла указываем таким образом, чтобы кука в лог-файле воспринималась в качестве хоста. Это "убьет" отчеты по хостам и странам, но остальные отчеты не пострадают. Выделяем посетителей, которые загрузили хотя бы одну страницу и исключаем роботов.

А потом сравним статистику счетчика AWLA и анализатора. Или есть возражения, что и такой анализ будет неполноценным?

Чтобы у участника эксперимента появился стимул, он получит бесплатную лицензию на AlterWind Log Analyzer Professional.

Inoff:
Динамические IP - сейчас в основной своей массе это DSL. Диаллап очень уверенно умирает, и причин тому много, которые перечислять не буду, если никто не попросит.

Уже ответили, что это не так. Как только появляется выделенный канал, появляется и выделенный IP.

Inoff:
Ленивость пользователей ... категорически не согласен. Если речь идет о заказе дисков, книг, мелких комплектующих - возможно. Когда речь идет о крупных заказах - человек может долго и мучительно выбирать, ходя изо дня в день по одним и тем же сайтам. В маркетинге нельзя обобщать большие категории.

Если речь идет о больших категориях, то там зачастую вступает в силу правило "покупает не тот, кто нашел/скачал". Добавим пользователей, у которых несколько машин и т.д. Все эти вещи сводят "точность" к довольно минимальному уровню.

Inoff:
Согласен на эксперимент. Только что будем сравнивать?
Количество? - не имеет значения для маркетинга, если нет точности.
Или качество анализа? - Какие критерии качества?
Точность? - Что будет шаблоном точности?
Давайте, предлагайте, я готов.

Учтеные заходу на страницы, заходы с поисковиков, хиты в операционных системах и браузерах. Это наглядно покажет погрешность счетчика.

Inoff:
Отвечаю на Ваши преимущества:
1. Анализатор логов не может показать реальных посетителей, потому что он их считает изначально не верно. IP - это не посетитель.

Читайте выше. Реальные посетители - это такой же миф. А средств учитывать действия клиентов пока еще не изобрели.

Inoff:
2. Вы невнимательно изучили нашу программу. Учет уходящих пользователей по определенным ссылкам есть и сделан качественно. Учет есть, а пользователь не замечает ничего странного и раздражающего.

Через какой механизм? У меня прпало желание изучать программу после первых же багов и заваливаний IE.

Inoff:
3. Целевое действие загрузка файла? Запросто. На моем сайте пояснение отчета "реклама" и "эффективность рекламы" написано на примере загрузки файла.

Здесь даже о погрешности нельзя говорить.

Inoff:
4. Попытки взлома и подсчет роботов - да, анализатор. Который у нас тоже есть в программе. Но мы говорим о маркетинге.

Вы сами задали тему. А смотреть нужно все. Может ведь стать и поздно.

Inoff:
5. Поискать в поисковиках. Только я не вижу смысла в этом действии.

Отслеживание идет через загрузку картинок.

Inoff:
Да, Интернет-статистика, по крайней мере сейчас, не может быть 100% точной. Да, счетчик теряет несколько процентов посещений.

И сколько это несколько для вашего счетчика?

Inoff:
Но зачем нужна статистика, которая считает все, но считает не правильно!?

Идеализировать статистику счетчика с учетом всех перечисленных условий - нонценс. В подавляющем большинстве случаев действует принцип "здесь и сейчас".

Inoff:
Вот попробуйте мне объяснить, как можно говорить о пользователях, когда на крупные и мелкие компании приходится один IP прокси сервера? Т.е. вся компаниясчитается за одного пользователя?

Может быть в случае больших компаний это как раз может оказаться наиболее верным.

Inoff:
Попробуйте доказать, что анализатор точен, при подсчете пользователей по IP. А иначе нет смысла беседовать дальше.

Какой смысл, если анализатор считает визиты. Будут более распространены логи с куками (под Апач, кстати есть соответствующи мод, а в IIS это делается соответствующими настройками) - будут считать уникальных посетителей настолько точно, насколько это вообще возможно.

А со священными войнами действительно пора завязывать. Если кому-то хочется знать об уникальных посетителях с погрешностью в десятки процентов - значит такая задача у него и стоит. Я предпочту обходится знаниями о визитах, но иметь полную информацию.

Inoff:
Отключенные картинки ... Вы не интересовались статистикой, сколько людей сейчас отключают картинки? Раньше, когда Интернет у всех был очень слабый - да, безусловно. Но сейчас, когда скорости и дешевизна интернета стали совсем другие таких людей осталось мизерное количество. И становится все меньше. Такая погрешность по сравнению с, мягко говоря, неправильным учетом пользователей по IP - сущая безделица.

Для рунета диалап еще более чем актуален (вы сами ссылаетесь на динамические IP), а с ним и отключение картинок. Да и помимо этого существует еще масса причин по которым картинка загружена не будет.

Inoff:
Вот Вы пишите у мебя на сайте про маркетинг при помощи анализатора ... Какой маркетинг можно сделать по хитам? Нам нужны именно пользователи и их действия.

В какой-то мере, нужно изначально исходить из принципа, что пользователи ленивы. Если он не желает делать целевое действие сейчас, то шансы на то, что он сделает его в будущем крайне невелики. Я прекрасно вижу какие ключевые слова работают в AdWords, а какие - нет, вижу эффективность от действий по продвижению, насколько результативна оптимизация сайта и как к нему относится Гуглбот.

А если нужно оценить продажи для конкретного источника, то для этого лучше применять совсем другие методы, не имеющие отношения к статистике сайта.

Inoff:
Хиты в анализаторе могут нагонять те же роботы.

Я еще раз повторяю, что достаточно поставить простой эксперимент по стравнению статистики анализатором логов и счетчиком. Роботов можно отфильтровать. Погрешность счетчика никуда не денется. Для внешних счетчиков она может быть и 20%, но предполагаю, что для локального она будет поменьше.

Inoff:
А причины, почему данных в счетчике меньше, заключаются не в отключении картинок, а опять же в этих качественно неверных способах определения пользователей. К тому же, счетчик с куками помнит пользователя, пришедшего вчера, неделю назад, месяц .... Анализатор же радостно считает его за нового :)
А что нужно маркетологам? Много, или правильно?

Отключенные/стертые куки мы в расчет не принимаем? Проблема в том, что 100% точной статистики быть не может. В реальности у некоторых доходит до того, что не смотря на куки и целый ряд ухищрений удается определить источник только 20-40% покупателей. Остальные появляются ниоткуда.

В заключение несколько (на самом деле их поболее будет) примеров с которыми счетчик справиться не в состоянии:

1. У меня основной отчет настроен на реальных посетителей. Это фильтр на включение всех посетителей, запросивших страницу или файл и фильтр на исключение всех роботов. В результате в статистике по реферам я вижу сайты на которых с сайта были запрошены только картинки, но пользователь в конечном итоге попал на мой сайт. Не важно, по какой причине это произошло: ссылка через ява-скрипт, редирект или ручное копирование URLа, но источник посетителя я вижу.

2. Одна из задач, которую спрашиваю пользователи - узнать, по каким адресам ушли с сайта (традиционно - уход на билдинговую систему). Это делается заменой всех внешних URLов на внутренний с редиректом. Будем заставлять посетителя видеть непонятную страничку с ожиданием загрузки счетчика?

3. Что делать маркетологам, у которых целевое действие - загрузка файла?

4. Как фиксировать попытки взлома сайта?

5. Как выявить воровство контента/дизайна?

Возможность работать с куками и определять некоторые параметры системы пользователя - единственные преимущества счетчиков перед анализаторами. При некоторых дополнительных усилиях это можно делать и через логи, а вот обеспечить 100% фиксацию событий счетчики не смогут никогда.

Inoff:
1. Перечислите, пожалуйста, преимущества лог-анализатора перед счетчиком в плане подсчета посетителей.

В первую очередь учет всех запросов. В этом топике уже упоминалось про заходы роботов и причина их неучета банальна - роботам не нужны картинки. Добавим отключенные картинки, недостаточное время для загрузки картинки, запросы изображений, файлов. С момента появления статистики через счетчики эти недостатки неоднократно отмечались.

Inoff:
Хм. Любопытно. Конечно данные будут отличаться. Я об этом всегда говорил. Анализатор просто некорректно считает повторные заходы одного пользователя (вернее вообще не считает), и неправильно считает вообще пользователей из-за единых корпоративных прокси на большое количество пользователей и из-за динамических IP.

Раз уж вопрос был задан, то отвечу здесь и на этом закруглюсь. Да, через стандартные лог-файлы невозможно учитывать уникальных посетителей, а лог-файлы с куками крайне слабо распространены и создатели анализаторов не ориетируются на такую задачу.

А по разнице в учете хитов тоже куки виноваты? Показатели счетчика практически всегда меньше данных, извлеченных из логов. Причины описаны выше.

12 3
Всего: 22