Как распознать робот в логах

B
На сайте с 14.05.2003
Offline
10
bnz
869

Я собрал некоторую статистику, многие IP роботов знаю, мы даже придумали алгоритм распознавания роботов по поведению на сайте - но всё равно есть непонятности.

Например, я обнаружил, что робот гугла ходит под разными IP - видимо, своеобразная защита от клоакинга. Ещё некоторые роботы меняют IP.

А вот есть ли способ распознать робота по какому-то явному признаку? Например, Яндекс и Гугл честно признаются, кто они есть такие, в HTTP-header (параметр "User-Agent"). А остальные?

И может кто знает, где можно найти перечень IP-адресов и "подписей" роботов?

bnz
[Удален]
#1
Например, я обнаружил, что робот гугла ходит под разными IP - видимо, своеобразная защита от клоакинга.

Это как это?? Он что - не из подсеток Гугла приходил? А как опознали?

B
На сайте с 14.05.2003
Offline
10
bnz
#2
Как писал Interitus

Это как это?? Он что - не из подсеток Гугла приходил? А как опознали?

Просто распознал - в логах он честно подписывается GOOGLEBOT.

его IP - 64.68.82.*

если даже не 64.68.*.*

Да ещё прогнал базу счётчика (у нас свой счётчик для сайтов, мной написанный - он там до чёрта всяких данных о сессии собирает. Практически, аналог спайлога - только свой и база у себя. Любой анализ посещений сделать можно) по специальному алгоритму.

Идея алгоритма проста, как валенок: во-первых, практически все роботы ходят по 1 странице за сессию (достоверно установлено всё по тем же логам), во-вторых, ходят "пакетом" (т.е. подряд просматривают несколько страниц - иногда даже все подряд, с интервалом захода не более 10 секунд), да и время просмотра страницы - считанные секунды. Сопрягаем всё это в скрипте - и пожалуйста. Но, к сожалению, этого недостаточно, да и не факт, что какой-то робот станет ходить как простой посетитель - по нескольку страниц за одну сессию.

[Удален]
#3

Ну да, 64.68/16 (там несколько подсетей из которых конкретно роботы ходят), плюс ещё 216-что-то есть одна подсеть. Это у подавляющего большинства роботов такое. С одного-единственного IP по-моему только Апорт ходит (ну и прочая мелочь).

А списки роботов надо поискать в Гугле например. :) По всяким запросам типа spider list.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий