- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Появилась необходимость сделать свой счетчик посетителей. Вопрос к народу - как лучше определять роботов? Щас рассматриваю 2 варианта: сопоставлять USER_AGENT со списком или роботов, или браузеров. Проблема в обоих способах одна и та же - и роботов, и браузеров куча. Может, кто-нить реализовывал что-нить подобное, посоветуйте, как лучше сделать? А может, кто-то и списочек представлений роботов и браузеров даст:rolleyes:
PS Еще рассматривал вариант проверки наличия COOKIE, но на Яваскрипт нигде не нашел, как это сделать, а РНР с хедерами не подходит.
Че-то я видать не проснулся еще, роботы ведь Яваскрипт не выполняют, этим их отсеить и можно. Но вопрос со списком USER_AGENT поисковиков все еще актуален. Никто не поделится? :)
Сильно не парился сделал так:
preg_match('/.*(WebAlta|Rambler|Yandex|IRLbot|msnbot|ia_archiver|Google|Yahoo|TurtleScanner|Aport|bot|crawl|altavista).*/i',$user_agent)
Юзерагенты прямо из логов взял, наверняка еще много чего есть, но пока не замечал, чтобы кто-то сильно статсы портил.
Лучше StackRambler. И добавить WebAlta !
А если по IP отфильтровать ?
Да вопрос решился довольно просто. Изучив логи, выделил все браузеры и роботы, ну а кто неизвестен, USER_AGENT сохраняется прямо так, чтобы потом можно было его в массив добавить.
$bot_names = array(
'Yandex/1.01.001 (compatible; Win16; I)',
'Yandex/1.01.001 (compatible; Win16; P)',
'Yandex/1.01.001 (compatible; Win16; H)',
'Yandex/1.03.003 (compatible; Win16; D)',
'Yandex/1.03.000 (compatible; Win16; M)',
'YaDirectBot/1.0 (compatible; Win 16?; I)',
'YandexBlog/0.99.101 (compatible; DOS3.30,B)',
'YandexSomething/1.0',
'Yandex/2.01.000 (compatible; Win16; Dyatel; C)',
'Yandex/2.01.000 (compatible; Win16; Dyatel; Z)',
'Yandex/2.01.000 (compatible; Win16; Dyatel; D)',
'StackRambler/2.0 (MSIE incompatible)',
'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'Google Feedfetcher',
'Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)',
'Yahoo-Blogs/v3.9',
'msnbot/1.0',
'WebAlta Crawler/1.3.12 (http://www.webalta.ru/bot.html) (Windows; U; Windows NT 5.1; ru-RU)',
'Yandex/1.01.001 (compatible; Win16; M)',
'Gigabot/2.0; http://www.gigablast.com/spider.html',
'psycheclone',
'msnbot/0.9 (+http://search.msn.com/msnbot.htm)',
'msnbot/1.0 (+http://search.msn.com/msnbot.htm)',
'WebAlta Crawler/1.3.18 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)'
);
Че-то я видать не проснулся еще, роботы ведь Яваскрипт не выполняют, этим их отсеить и можно. Но вопрос со списком USER_AGENT поисковиков все еще актуален. Никто не поделится?
полагаю, это самый оптимальный вариант. :)
Разве что потеряются доли процента юзеров, у которых Жабаскрипт по каким-то причинам не пашет.
Натыкался на списки юзерагентов ботов - порядка пары сотен.
да и версии могут меняться, поэтому по полной строке фиг сверишь - нужно по части.
Натыкался на списки юзерагентов ботов - порядка пары сотен.
да и версии могут меняться, поэтому по полной строке фиг сверишь - нужно по части.
Ну да, поэтому я и пользуюсь регулярными выражениями :)
sun, большой фанкс ;)
'msnbot/0.9 (+http://search.msn.com/msnbot.htm)',
'msnbot/1.0 (+http://search.msn.com/msnbot.htm)',
'WebAlta Crawler/1.3.18 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)'
);
как только выйден новая версия каждого бота, этот фильтр будет бессилен. Не надо туда включать номера версий. Например, для Яндекса достаточно
Yandex/
Есть такая утилита AWStats написана она с использованием perl. Так вот в этой утилите есть файл search_engines.pm, а внем прописано очень большое количество поисковых роботов.