В любом нормальном анализаторе это реализовано. Смотрите в сторону фильтров. Можно отфильтровать любые нужные/не нужные хиты или визиты.
Потому что в логах фиксируются все запросы с сайта, а счетчиком - только часть запросов страниц. Разница набегает за счет:
1. Посетителей, которые счетчик не грузили (в случае внешних счетчиков основная причина даже не отключение картинок или недостаточное время для их загрузки, а фаерволы и прокси, которые не грузят баннеры, кнопки или счетчики в целях экономии трафика)
2. Роботов. Это не посетители, но для продвижения сайта в поисковых системах эта статистика важна.
3. Посетителей, которые загрузили только картинку с вашего сайта. Например, баннер, логотип или кнопка, размещенная на другом сайте.
4. Реферный спам, когда генерируются фальшивые визиты на сайт с целью оставить в логах адрес своего сайта.
Чтобы увидеть реальных посетителей, нужно добавить фильтр на посетителей, запросивших страницы и исключить роботов. А вот реферный спам придется отлавливать вручную, просматривая статистику по ссылающимся сайтам/страницам, но зачастую спамеры облегчают эту задачу.
Ну а куда конкретнее. Если у хостера в документации нет, то надо писать в сапорт. Например, у Мастерхоста по умолчанию логи не сохраняются, поэтому нужно писать в сапорт и просить их добавлять в нужном формате, а некоторые хостеры вообще логов не имеют.
Традиционно на FTP рядом с папкой "WWW" (папка, где лежат файлы сайта) должна быть папка "logs". Если такой нет, то поможет только сапорт хостера.
Не понятно, к какому Павлу идет обращение ;)
Если ко мне, то счетчик я не разрабатываю, а занимаюсь анализатором лог-файлов. Какой смысл совмещать счетчик и анализатор? Если нужен подсчет уникальных посетителей - в лог-файлы можно добавить данные о куках и использовать анализатор, поддерживающий эти данные. Нужны данные о разрешении экрана пользователя - встроить в страницы сайта вызов картинки или ява-скрипта, имя которого будет содержать эту информацию, настройте фильтр в анализаторе и получите нужную статистику. Что еще требуется из того, что умеет счетчик?
А что касается "честной и корректной статистики", то такого просто не бывает из-за целого ряда факторов.
В заключении, небольшой пример, что куки далеко не всесильны и даже наоборот.
У меня есть партнер, у которого смежная по тематике программа. Он зарегистрирован афилейтом на RegNow. В старых версиях кастомизация дистрибутива была невозможна и поэтому использовался стандартный в таких случаях метод - все ссылки на мой сайт и загрузку программы шли через редирект на RegNow, который засаживал посетителю куку. Если посетитель заходит на покупку, то в теории RegNow по этой куке определяет афилейта и начисляет ему соответствующую комиссию.
В новой версии кастомизация была реализована и в конце июля я создал партнеру дистрибутив с сылками на его сайт и сразу на RegNow при покупке.
А вот теперь статистика: с января по июнь RegNow не было зафиксировано ни одного (!!!) захода от партнера. В июле таких переходов зафиксировано 2 (жаль, что нельзя посмотреть их по дням, но предполагаю, что они пришлись как раз на конец месяца), в августе - 12 переходов, за прошедшую часть сентября - 5.
Именно поэтому серьезные афилейты не расчитывают на куки, а требуют кастомизированный дистрибутив. Именно поэтому партнерские программы "за продажи" не пользуются популярностью. Впрочем, верящие в статистику по кукам могут продолжать молиться на этого бога.
И при этом твердить о достоверности статистики у которой погрешность до 20% в самой методике и еще процентов 30 из-за других факторов. Я это объяснял не меньшее число раз.
Мое предложение в силе для любого человека, имеющего возможность поставить такой эксперимент.
Не знаю, кто из нас больше цепляется за соломинки. Объяснять неполноту статистики отсутствием кук...
Итак предложение полноценного эксперимента:
Если у кого-то, кто пользуется AWLA генерируются лог-файлы с куками или есть возможность генерировать такие лог-файлы, то можно поступить следующим образом:
Я создаю специальную версию AlterWind Log Analyzer, где отсутствуют ограничения на длительность сесии визита, формат лог-файла указываем таким образом, чтобы кука в лог-файле воспринималась в качестве хоста. Это "убьет" отчеты по хостам и странам, но остальные отчеты не пострадают. Выделяем посетителей, которые загрузили хотя бы одну страницу и исключаем роботов.
А потом сравним статистику счетчика AWLA и анализатора. Или есть возражения, что и такой анализ будет неполноценным?
Чтобы у участника эксперимента появился стимул, он получит бесплатную лицензию на AlterWind Log Analyzer Professional.
Уже ответили, что это не так. Как только появляется выделенный канал, появляется и выделенный IP.
Если речь идет о больших категориях, то там зачастую вступает в силу правило "покупает не тот, кто нашел/скачал". Добавим пользователей, у которых несколько машин и т.д. Все эти вещи сводят "точность" к довольно минимальному уровню.
Учтеные заходу на страницы, заходы с поисковиков, хиты в операционных системах и браузерах. Это наглядно покажет погрешность счетчика.
Читайте выше. Реальные посетители - это такой же миф. А средств учитывать действия клиентов пока еще не изобрели.
Через какой механизм? У меня прпало желание изучать программу после первых же багов и заваливаний IE.
Здесь даже о погрешности нельзя говорить.
Вы сами задали тему. А смотреть нужно все. Может ведь стать и поздно.
Отслеживание идет через загрузку картинок.
И сколько это несколько для вашего счетчика?
Идеализировать статистику счетчика с учетом всех перечисленных условий - нонценс. В подавляющем большинстве случаев действует принцип "здесь и сейчас".
Может быть в случае больших компаний это как раз может оказаться наиболее верным.
Какой смысл, если анализатор считает визиты. Будут более распространены логи с куками (под Апач, кстати есть соответствующи мод, а в IIS это делается соответствующими настройками) - будут считать уникальных посетителей настолько точно, насколько это вообще возможно.
А со священными войнами действительно пора завязывать. Если кому-то хочется знать об уникальных посетителях с погрешностью в десятки процентов - значит такая задача у него и стоит. Я предпочту обходится знаниями о визитах, но иметь полную информацию.
Для рунета диалап еще более чем актуален (вы сами ссылаетесь на динамические IP), а с ним и отключение картинок. Да и помимо этого существует еще масса причин по которым картинка загружена не будет.
В какой-то мере, нужно изначально исходить из принципа, что пользователи ленивы. Если он не желает делать целевое действие сейчас, то шансы на то, что он сделает его в будущем крайне невелики. Я прекрасно вижу какие ключевые слова работают в AdWords, а какие - нет, вижу эффективность от действий по продвижению, насколько результативна оптимизация сайта и как к нему относится Гуглбот.
А если нужно оценить продажи для конкретного источника, то для этого лучше применять совсем другие методы, не имеющие отношения к статистике сайта.
Я еще раз повторяю, что достаточно поставить простой эксперимент по стравнению статистики анализатором логов и счетчиком. Роботов можно отфильтровать. Погрешность счетчика никуда не денется. Для внешних счетчиков она может быть и 20%, но предполагаю, что для локального она будет поменьше.
Отключенные/стертые куки мы в расчет не принимаем? Проблема в том, что 100% точной статистики быть не может. В реальности у некоторых доходит до того, что не смотря на куки и целый ряд ухищрений удается определить источник только 20-40% покупателей. Остальные появляются ниоткуда.
В заключение несколько (на самом деле их поболее будет) примеров с которыми счетчик справиться не в состоянии:
1. У меня основной отчет настроен на реальных посетителей. Это фильтр на включение всех посетителей, запросивших страницу или файл и фильтр на исключение всех роботов. В результате в статистике по реферам я вижу сайты на которых с сайта были запрошены только картинки, но пользователь в конечном итоге попал на мой сайт. Не важно, по какой причине это произошло: ссылка через ява-скрипт, редирект или ручное копирование URLа, но источник посетителя я вижу.
2. Одна из задач, которую спрашиваю пользователи - узнать, по каким адресам ушли с сайта (традиционно - уход на билдинговую систему). Это делается заменой всех внешних URLов на внутренний с редиректом. Будем заставлять посетителя видеть непонятную страничку с ожиданием загрузки счетчика?
3. Что делать маркетологам, у которых целевое действие - загрузка файла?
4. Как фиксировать попытки взлома сайта?
5. Как выявить воровство контента/дизайна?
Возможность работать с куками и определять некоторые параметры системы пользователя - единственные преимущества счетчиков перед анализаторами. При некоторых дополнительных усилиях это можно делать и через логи, а вот обеспечить 100% фиксацию событий счетчики не смогут никогда.
В первую очередь учет всех запросов. В этом топике уже упоминалось про заходы роботов и причина их неучета банальна - роботам не нужны картинки. Добавим отключенные картинки, недостаточное время для загрузки картинки, запросы изображений, файлов. С момента появления статистики через счетчики эти недостатки неоднократно отмечались.
Раз уж вопрос был задан, то отвечу здесь и на этом закруглюсь. Да, через стандартные лог-файлы невозможно учитывать уникальных посетителей, а лог-файлы с куками крайне слабо распространены и создатели анализаторов не ориетируются на такую задачу.
А по разнице в учете хитов тоже куки виноваты? Показатели счетчика практически всегда меньше данных, извлеченных из логов. Причины описаны выше.