- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть ли возможность защитить сайт от выкачки, или сейчас это не реально?
В универе у нас был спец курс по защите информации. И изначально ПО считалось безопасным если взломать его сложно - сложнее чем добыть информацию другими средствами.
ИМХО, нацеливаться нужно на усложнение выкачки. По мне, интересен вариант не банить, а выявить выкачку и подменять информацию заранее заготовленной другой (бесполезной).
Либо отдавать страницу ввиде картинки.
Либо отдавать кодированный текст страницы и у пользователя ("на лету") с помощью, к примеру, функции Java Script, раскодировать его.
Т.е. видим нормальный текст, а скачиваем бурду.
Скрипт в моей подписи забирает все страницы сайта.
Блокируйте его хостера:
Deny from 78.24.216.0/21
Парсинг сайта усложняется глобальным блокированием IP-сетей хостинг-провайдеров. Как показывают многолетние наблюдения, парсинг производится чаще всего с них. Можно сразу блокировать все сети хезнер, ovh, американских хостеров, а затем отлавливать скриптом (или анализом лог-файлов) остальных.
Есть ли возможность защитить сайт от выкачки, или сейчас это не реально?
Вполне реально, но и клиенты получить с него данные не смогут, просто выдерните сервер из розетки...
Если вы хотите одновременно выдавать информацию анонимным клиентам, и не выдавать информацию парсерам итп,
то подумайте как вы будете первых от вторых отличать.
Учитывая, что "анонимные клиенты" - это в том числе ПАРСЕРЫ поисковых систем, ваша задача становится еще веселее.
Можно лишь бороться с паразитной нагрузкой от КОНКРЕТНЫХ клиентов. К примеру, у меня был случай, когда
"взбесившийся медиацентр" гнал по 100 запросов в секунду сутками. Такие вещи легко настроить через fail2ban и
стандартный механизм nginx-a. Но это просто "бюджетирование по признаку ip". От прокси не спасет
---------- Добавлено 24.04.2018 в 12:04 ----------
Среднее и будет меньше 3 секунд в описанном кейсе. Заходишь на сайт - открываешь сразу кучу ссылок, плюс браузер иногда предварительно кэширование делает.
А если не дай скажем закрыл браузер где было 50 вкладок, а потом его открыл - там и меньше 1/50 будет время страницы среднее:)
Если еще умножить это на то, что сейчас редко у кого есть выделенный ИП и прибавить к этому странную реализацию DPI у некоторых провайдеров, то количество безвинно забаненных будет неадекватным.
Так есть же отдельно лимит по burst и простой.
Именно для такой фигни... лики баскет там итп.
Т.е. можешь получить документ раз в 3секунды, но имеешь "буфер" в скажем 50 документов, итого первые 50 выдаются мгновенно, дальше только по 1 в 3сек.
В целом, при разумных цифрах нормально это всё как не удивительно работает.
Но от грабера через 100500 проксей не спасет.