Определить бота, поисковик

Lord Maverik
На сайте с 15.04.2003
Offline
471
586

Каким самым простым способом определить, что станицу запрашивает бот?

Суть проблемы:

Данные извлекаются по апи, каждый запрос стоит денег. Все запросы сохраняются в кеше. Срок актуальности данных в кеше 3 дня. Собственно изменится может цена.

Хочу сделать чтобы в случае запроса страницы ботом, срок кеша устанавливался например в год, дабы данные показать, но новый запрос апи не инициировать.

RedMall.Ru (https://redmall.ru) - Товары из Китая (Таобао, Tmall) с проверкой качества, скидка для форумчан 7% Партнерская программа 2 уровня: 5% + 5%. Подробнее. (https://redmall.ru/about/partner/)
Samba1982
На сайте с 29.04.2013
Offline
88
#1

по User-agent и ip, в свое время более двух лет занимался клоакингом и скажу что в вашей задаче проблем вообще не вижу, пишите скрипт - скрипт устанавливает в начале каждой страницы прозрачную картинку размером 1х1 пиксель с ссылкой на ловушку, и все ip которые перешли по этой ссылке попадают в базу скрипта, (по такой ссылке могут переходить только боты), после если страница запрашивается - скрипт сравнивает User-agent и ip из базы - и соответственно делает то что вам нужно, единичные заходы все ровно будут проскакивать - но редко, так как поисковики постоянно меняют ip ботам и маскируются под браузеры и т.д. - но с каждым разом это будет происходить все реже и реже, актуальную базу ip поисковых ботов в сети не найдете - соберайте сами - как я вам написал - иначе у вас ничего не получится !

Lord Maverik
На сайте с 15.04.2003
Offline
471
#2
Samba1982:
по такой ссылке могут переходить только боты
Samba1982:
после если страница запрашивается - скрипт сравнивает User-agent и ip

Зачем сранивать юзер-агент? IP недостаточно?

Samba1982
На сайте с 29.04.2013
Offline
88
#3

если использовать только ip размер базы будет значительно больше, + если у вас будут записи про User-agent - будет очень полезно для личной статистики и опыта, вы будите видеть какой поисковик, какой тип контента он индексирует, как часто заходит, в свое время я насчитал только у одного Яндекса более сотни ботов, это не просто боты которые маскируются и проверяют сайты - таких наверно десятки тысяч, а боты которые заточены под конкретные операции и не скрывают свой User-agent, типо индексатор картинок, индексатор ссылок, робот предварительной проверки сайта и т.д. ... - там черт ногу сломит от их количества и предназначения.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий