Робот яндекса и защита от парсинга

I1
На сайте с 01.03.2019
Offline
24
536
Есть какие то решения для защиты от парсинга не мешающие работе индексирующих роботов? Мой проект постоянно парсят конкуренты. Я сделал защиту блокирующую действия пользователей, если их больше 20ти в минуту. Грубо говоря нельзя за минуту открыть более 20 страниц.  В результате конкуренты обломались, но и индексирование упало в 10 раз. 
F0
На сайте с 24.10.2013
Offline
74
#1
Пауки Яндекса ходят из сетей AS13238 (основная, российские дата-центры) и AS208722 (финский дата-центр). Диапазоны IP внесите в белый список, к которому не применяются ограничения. Аналогично с Google. Запросы от остальных посетителей по-прежнему жёстко лимитируйте.
AS13238 YANDEX LLC details - IPinfo.io
AS13238 YANDEX LLC details - IPinfo.io
  • ipinfo.io
AS13238 autonomous system information: WHOIS details, hosted domains, peers, upstreams, downstreams, and more
-S
На сайте с 10.12.2006
Offline
Модератор1351
#2
int128 :
Грубо говоря нельзя за минуту открыть более 20 страниц.

Если на сайт в день заходит, например 100 посетителей, то они не заходят равномерно в течение суток. В пике может быть по 50 онлайн, например. Потому так защищать не вариант.

Антоний Казанский
На сайте с 12.04.2007
Online
613
#3
int128 :
В результате конкуренты обломались

Когда сильно надо, поверьте, конкуренты найдут способ спарсить у вас контент, используя разные прокси и временные задержки. Это задача активно и успешно решается, поэтому если вы просто хотите обломать конкурентов, то просто создадите временные неудобства и проблемы себе, нежели конкурентам.


int128 :
Я сделал защиту блокирующую действия пользователей, если их больше 20ти в минуту.

В минуту? Вы создали себе очень низкий "потолок" рабочей нагрузки и дополнительные проблемы проекту. 

√ SEO продвижение https://akazansky.ru - поиск новых точек роста, экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. © Обстоятельно, ответственно, доступно.
fliger
На сайте с 17.09.2015
Offline
106
#4
int128 :
Есть какие то решения для защиты от парсинга

На php написал решение (использую APCu): https://www.php.net/manual/ru/book.apcu.php

По каждому IP блокирую более 30 запросов в минуту, более 50 за 5 минут, более 150 за 30 минут. Поисковики проверяю по белому списку и gethostbyaddr - gethostbyname (фальшивый user-agent - в блок).

Когда приходит сообщение о блокировке, проверяю сеть. Если хостер - всю сеть в блок.

Дополнительно использую скрытую ловушку, в которую только роботы заходят.

Как-то так.

BrickLayer
На сайте с 13.06.2020
Offline
93
#5
Спарсить можно всё что угодно, даже если вход будет по паспорту =)
Работайте лучше над оптимизацией, водяными знаками и скрытыми копирайтами.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий