Еле пробился, сайт еле грузится.
Вообще статья написано явно начинающим. Все это способы не дадут даже близко реальной картины. Многие боты маскируются под пользователей, и наоборот.
Есть только один верный способ - его использует CNStats.
Счетчик состоит из трех частей. Две выполняются на сервере и одна у клиента.
1. В момент обращения к странице собирается общая информация - все что можно взять из запроса и переменных среды - IP, Агент, Адрес, Реферер и генерируется JavaScript код.
2. JavaScript код выполняется на клиенте, определяется включены ли Cookies. Робот скорее всего не будет обрабатывать JavaScript. JavaScript код загружает картинку - счетчик с сервера.
3. Счетчик-картинка проверяет включенность Cookies и идентифицирует пользователя.
Даже если робот и поддерживает JavaScript, то картинку он загружать не станет.
Роботы учитываются на первом шаге, пользователи не третьем.
Заранее извиняюсь если сумбурно объяснил :)
Блокировка то небось по размеру 88x31. Берем код счетчика с другим размером и все работает.
Это он в дефалтовой установке себя так ведет ??
У меня CNStats крутится почти на 300 000 и не жужжит. MySql нужно уметь настраивать.
Чтобы не грузил сервер - однозначно анализатор логов. Но оговорюсь что пользователей корректно логами посчитать не возможно.
Это может быть что угодно, не обязательно паук. Ты hostname посмотри, и все станет ясно.
P.S. Еще бы статейка бы загрузилась для полного счастья....
Если 50 сайтов, то организуй сборщик на каком-нибудь сервере.
Я бы сделал так.
1. Настроил ротацию логов, с хранением старых логов в 1 день
2. Написал простенький скрипт, который забирает вчерашний лог (к тому времени ротатор его запакует) fetch'ем или wget'ом и складывает в один каталог.
3. Забирал бы потом эти файлы из под Windows вручную. (грубо говоря зашел- * (выделил все) и F6 (перенос))
Надоело бы забирать, настроил бы автоматическую скачивалку какую-нибудь. Тот-же консольный ftp клиент + bat файл.
Рубрика ЯК - ДА
Физическое расположение сервера - ДА
Содержимое сайта - скорее НЕТ чем ДА.
Пример:
http://www.yandex.ru/yandsearch?text=codenet&stype=www&rstr=-24-----------&rstr_manually=true
На сайте нет никаких координат и контактов, он просто физически расположен в Новгороде. В ЯК сайт не принадлежит Новгороду.
Вообще последнее время поиск по регионам стал действительно сильно более качественным.
Извиняюсь что не подписал, решение не претендует на законченность, но в свое время мне помогало.
Если эти двое продолжать топтаться на месте - то вряд ли. Вот пример простого поискового запроса который расставляет все по полочкам:
http://www.google.ru/search?sourceid=navclient&hl=ru&ie=UTF-8&rls=GFRC,GFRC:2007-01,GFRC:ru&q=%D0%BC%D1%83%D1%80%D0%B0%D0%B2%D0%B5%D0%B9%D0%BD%D0%B8%D0%BA+%D1%80%D0%B5%D1%86%D0%B5%D0%BF%D1%82+%D1%82%D0%BE%D1%80%D1%82+
http://www.yandex.ru/yandsearch?text=%EC%F3%F0%E0%E2%E5%E9%ED%E8%EA+%F0%E5%F6%E5%EF%F2+%F2%EE%F0%F2+&stype=www
И это еще цветочки, попробуйте пройтись по популярным или дорогостоящим фразам.
Недавно заметил небольшую особенность учета пользователей у liveinternet. Для того чтобы проверить включены ли Cookies, liveinternet выдает вместо картинки редирект с установкой куки.
Судя по данным тампера в FireFox картинка после редиректа загружается после того как будут загружены все остальные картнки на сайты.
Для эксперимента я сделал два простых счетчика на PHP которые считают пользователей и хостов - один определял включенность Cookies как liveinternet, второй - через JavaScript. Хосты учитывались во время загрузки картинки. (тут уж я не знаю как li работает)
Так вот тот который работал как liveinternet показал, на мой взгляд более точно количество пользователей (8934) но хостов он показал !меньше! чем на самом деле (8224). Счетчик использующий JavaScript для определения включенности Cookies насчитал 8939 пользователей и 8731 хост.
Вывод: никому верить нельзя по простой причине - пользователей точно посчитать невозможно.
А CNStats скорее всего просто считает роботов и тех у кого отключены картинки, у них на форуме это как-то обсасывалось: http://cnstats.ru/showthread.php?t=10
Не знаю как CNGeoIP по качеству, но то что было в CNStats 2.9 ни в какие рамки не лезло - правильно определяло не более 20% хостов. По этому я как использовал базу MaxMind, так и использую. Обновился до STD бесплатно. Скептицизма не разделяю.