Выкачка сайта

12
R
На сайте с 18.01.2010
Offline
61
#11
svv:
Есть ли возможность защитить сайт от выкачки, или сейчас это не реально?

В универе у нас был спец курс по защите информации. И изначально ПО считалось безопасным если взломать его сложно - сложнее чем добыть информацию другими средствами.

ИМХО, нацеливаться нужно на усложнение выкачки. По мне, интересен вариант не банить, а выявить выкачку и подменять информацию заранее заготовленной другой (бесполезной).

Либо отдавать страницу ввиде картинки.

Либо отдавать кодированный текст страницы и у пользователя ("на лету") с помощью, к примеру, функции Java Script, раскодировать его.

Т.е. видим нормальный текст, а скачиваем бурду.

fliger
На сайте с 17.09.2015
Offline
114
#12
GoRSS:
Скрипт в моей подписи забирает все страницы сайта.

Блокируйте его хостера:

Deny from 78.24.216.0/21

Парсинг сайта усложняется глобальным блокированием IP-сетей хостинг-провайдеров. Как показывают многолетние наблюдения, парсинг производится чаще всего с них. Можно сразу блокировать все сети хезнер, ovh, американских хостеров, а затем отлавливать скриптом (или анализом лог-файлов) остальных.

_
На сайте с 24.03.2008
Offline
381
#13
svv:
Есть ли возможность защитить сайт от выкачки, или сейчас это не реально?

Вполне реально, но и клиенты получить с него данные не смогут, просто выдерните сервер из розетки...

Если вы хотите одновременно выдавать информацию анонимным клиентам, и не выдавать информацию парсерам итп,

то подумайте как вы будете первых от вторых отличать.

Учитывая, что "анонимные клиенты" - это в том числе ПАРСЕРЫ поисковых систем, ваша задача становится еще веселее.

Можно лишь бороться с паразитной нагрузкой от КОНКРЕТНЫХ клиентов. К примеру, у меня был случай, когда

"взбесившийся медиацентр" гнал по 100 запросов в секунду сутками. Такие вещи легко настроить через fail2ban и

стандартный механизм nginx-a. Но это просто "бюджетирование по признаку ip". От прокси не спасет

---------- Добавлено 24.04.2018 в 12:04 ----------

edogs:
Среднее и будет меньше 3 секунд в описанном кейсе. Заходишь на сайт - открываешь сразу кучу ссылок, плюс браузер иногда предварительно кэширование делает.
А если не дай скажем закрыл браузер где было 50 вкладок, а потом его открыл - там и меньше 1/50 будет время страницы среднее:)
Если еще умножить это на то, что сейчас редко у кого есть выделенный ИП и прибавить к этому странную реализацию DPI у некоторых провайдеров, то количество безвинно забаненных будет неадекватным.

Так есть же отдельно лимит по burst и простой.

Именно для такой фигни... лики баскет там итп.

Т.е. можешь получить документ раз в 3секунды, но имеешь "буфер" в скажем 50 документов, итого первые 50 выдаются мгновенно, дальше только по 1 в 3сек.

В целом, при разумных цифрах нормально это всё как не удивительно работает.

Но от грабера через 100500 проксей не спасет.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий