- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Каким самым простым способом определить, что станицу запрашивает бот?
Суть проблемы:
Данные извлекаются по апи, каждый запрос стоит денег. Все запросы сохраняются в кеше. Срок актуальности данных в кеше 3 дня. Собственно изменится может цена.
Хочу сделать чтобы в случае запроса страницы ботом, срок кеша устанавливался например в год, дабы данные показать, но новый запрос апи не инициировать.
по User-agent и ip, в свое время более двух лет занимался клоакингом и скажу что в вашей задаче проблем вообще не вижу, пишите скрипт - скрипт устанавливает в начале каждой страницы прозрачную картинку размером 1х1 пиксель с ссылкой на ловушку, и все ip которые перешли по этой ссылке попадают в базу скрипта, (по такой ссылке могут переходить только боты), после если страница запрашивается - скрипт сравнивает User-agent и ip из базы - и соответственно делает то что вам нужно, единичные заходы все ровно будут проскакивать - но редко, так как поисковики постоянно меняют ip ботам и маскируются под браузеры и т.д. - но с каждым разом это будет происходить все реже и реже, актуальную базу ip поисковых ботов в сети не найдете - соберайте сами - как я вам написал - иначе у вас ничего не получится !
по такой ссылке могут переходить только боты
после если страница запрашивается - скрипт сравнивает User-agent и ip
Зачем сранивать юзер-агент? IP недостаточно?
если использовать только ip размер базы будет значительно больше, + если у вас будут записи про User-agent - будет очень полезно для личной статистики и опыта, вы будите видеть какой поисковик, какой тип контента он индексирует, как часто заходит, в свое время я насчитал только у одного Яндекса более сотни ботов, это не просто боты которые маскируются и проверяют сайты - таких наверно десятки тысяч, а боты которые заточены под конкретные операции и не скрывают свой User-agent, типо индексатор картинок, индексатор ссылок, робот предварительной проверки сайта и т.д. ... - там черт ногу сломит от их количества и предназначения.