Качественное определение пауков

НД
На сайте с 31.10.2005
Offline
0
1138

Добрый!

Имеется ли какой-либо алгоритм точного определения пауков [PHP, ASP]? Имею ввиду такой алгоритм, который не требует постоянных обновлений таблиц БД, в которых хранятся ip или HTTP_USER_AGENT пауков.

НД
На сайте с 31.10.2005
Offline
0
#1

Переформулирую.

Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

Таггу x_x
На сайте с 31.10.2005
Offline
445
#2
неДима:
Переформулирую.

Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

Ну разберете Вы его, а дальше то что? Не совсем понял... Без списка бота можно определять только по поведению :)

И HTTP_USER_AGENT тут ни причем.

☠️☠️☠️
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#3

Культурный робот обычно всегда спрашивает robots.txt. Правда, любопытный пользователь тоже может его спросить.

Определить же, робот это или нет только по строке User-agent тоже можно, но не гарантированно — у многих роботов там стоит URL, по которому можно найти подробную информацию о нем. Но это совсем необязательно.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#4

Сергей, а если ботов у поисковика несколько, а к robots.txt обращается только один из них?

К тому же, в любом случае, запрос к robots.txt и к любой другой странице это разные запросы, а следовательно базу вести таки придётся. Другое дело, что робота можно довольно успешно определить по заголовкам HTTP запроса, правда опять же всякие экзотические браузеры или посетители, приходящие через прокси могут быть причислены к роботам.

M
На сайте с 19.03.2005
Offline
62
#5
Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

неДима, и по USER_AGENT не выйдет ( и по поведению то же). Легко пробить. Мой броузер например, представляется googlebot 2.1 по умолчанию, и по прочим признакам соответствует заходу бота (кроме ip).

Без ip не обойтись. А лучше и то и другое.

no_relevant

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий