Определить бота, поисковик

471

Lord Maverik

3 марта 2016, 08:20

586

Каким самым простым способом определить, что станицу запрашивает бот?

Суть проблемы:

Данные извлекаются по апи, каждый запрос стоит денег. Все запросы сохраняются в кеше. Срок актуальности данных в кеше 3 дня. Собственно изменится может цена.

Хочу сделать чтобы в случае запроса страницы ботом, срок кеша устанавливался например в год, дабы данные показать, но новый запрос апи не инициировать.

RedMall.Ru (https://redmall.ru) - Товары из Китая (Таобао, Tmall) с проверкой качества, скидка для форумчан 7% Партнерская программа 2 уровня: 5% + 5%. Подробнее. (https://redmall.ru/about/partner/)

88

Samba1982

3 марта 2016, 08:45

#1

по User-agent и ip, в свое время более двух лет занимался клоакингом и скажу что в вашей задаче проблем вообще не вижу, пишите скрипт - скрипт устанавливает в начале каждой страницы прозрачную картинку размером 1х1 пиксель с ссылкой на ловушку, и все ip которые перешли по этой ссылке попадают в базу скрипта, (по такой ссылке могут переходить только боты), после если страница запрашивается - скрипт сравнивает User-agent и ip из базы - и соответственно делает то что вам нужно, единичные заходы все ровно будут проскакивать - но редко, так как поисковики постоянно меняют ip ботам и маскируются под браузеры и т.д. - но с каждым разом это будет происходить все реже и реже, актуальную базу ip поисковых ботов в сети не найдете - соберайте сами - как я вам написал - иначе у вас ничего не получится !

1

471

Lord Maverik

3 марта 2016, 08:51

#2

Samba1982:
по такой ссылке могут переходить только боты

Samba1982:
после если страница запрашивается - скрипт сравнивает User-agent и ip

Зачем сранивать юзер-агент? IP недостаточно?

88

Samba1982

3 марта 2016, 09:18

#3

если использовать только ip размер базы будет значительно больше, + если у вас будут записи про User-agent - будет очень полезно для личной статистики и опыта, вы будите видеть какой поисковик, какой тип контента он индексирует, как часто заходит, в свое время я насчитал только у одного Яндекса более сотни ботов, это не просто боты которые маскируются и проверяют сайты - таких наверно десятки тысяч, а боты которые заточены под конкретные операции и не скрывают свой User-agent, типо индексатор картинок, индексатор ссылок, робот предварительной проверки сайта и т.д. ... - там черт ногу сломит от их количества и предназначения.

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов