Защита сайта от Парсинга (грабинга)?

12 3
D
На сайте с 03.03.2013
Offline
4
17451

Скажите, есть ли какие нибудь методы, способные блокировать или значительно затруднить парсинг сайта, т.е копирование контента, картинок и тп...

К примеру в помощью оффлайн браузеров такими как TelePro и тп.

Без минусов для пользователей и ПС.

betteam
На сайте с 26.04.2010
Offline
109
#1

поможет только ajax

basf
На сайте с 13.01.2012
Offline
18
#2

Есть, конечно.

Включаешь в апаче модуль Rewrite:

AuthUserFile /dev/null

AuthGroupFile /dev/null

RewriteEngine On

И... спонсором по морде!!! Пишешь правило, которое перенаправляет на страницу спонсора (или, куда душе угодно) если запрос на картинку и/или контент пришёл не с твоего урла и/или IP.

Все .html страницы переписываются в .php скрипты, можно с добавкой javascript! Ссылки делаются двойными/тройными, состоящие из нескольких выражений. Плюс, применение кнопок, для перехода на другие страницы. И от спамеров так e-mail защитить можно, и никакие TelePro/etc скачать не смогут:


function Mail(){
document.write('<FONT f' + 'ace=A' + 'rial' + '><a h' + 'ref=' + '"mail' + 'to:su' + 'pp' + 'ort@' + 'mai' + 'l.r' + 'r">а' + 'дре' + 'с</a></' + 'FONT>');

<?php
$name = "Имя сайта";
echo "<HTML><HEAD><title>$name</title>";
echo "<META charset=windows-1251>";
...

Могу даже пример подобного сайта показать...

Баннерные показы н-нада? (http://otdai.com) Много и не дорого. Торг возможен.
О
На сайте с 04.08.2009
Offline
145
#3
basf:
Есть, конечно.
Включаешь в апаче модуль Rewrite:

AuthUserFile /dev/null
AuthGroupFile /dev/null
RewriteEngine On

И... спонсором по морде!!! Пишешь правило, которое перенаправляет на страницу спонсора (или, куда душе угодно) если запрос на картинку и/или контент пришёл не с твоего урла и/или IP.

Все .html страницы переписываются в .php скрипты, можно с добавкой javascript! Ссылки делаются двойными/тройными, состоящие из нескольких выражений. Плюс, применение кнопок, для перехода на другие страницы. И от спамеров так e-mail защитить можно, и никакие TelePro/etc скачать не смогут:





Могу даже пример подобного сайта показать...

Давай .

Влазить напрямую в базу — это невозможно © Игорь Белов, mchost.ru
basf
На сайте с 13.01.2012
Offline
18
#4
betteam:
поможет только ajax

Не-а, не верно.


<?php
$z= $_POST['yew'];

...

echo "<td><form method='post' action='f101.php'><input type='hidden' name='yew' value='$z'><input type='Submit' name='xyz' value='Предыдущая страница'></form></td>";
echo "<td><form method='post' action='../'><input type='Submit' name='cdr' value='Главная страница'></form></td>";
echo "<td><form method='post' action='f102.php'><input type='hidden' name='yew' value='$z'><input type='Submit' name='xyz' value='Следующая страница'></form></td>";

Ни один граббер не пройдёт. Определение адреса ссылки по условию, передаваемому через параметр POST... Следующая php-страница может проверять параметр, передающийся через POST, и если он отличается от валидных, плеваться Error-ом 404!

---------- Добавлено 10.05.2013 в 22:37 ----------

Окей:
Давай .

Не вижу тут спойлера. Выкладывать в паблик ссылку +18?... Что модераторы скажут...

M
На сайте с 08.11.2008
Offline
122
#5
basf:
Не вижу тут спойлера. Выкладывать в паблик ссылку +18?... Что модераторы скажут...

Венчурный капитал привлекут.

Новогодний хостинг. Тут! (/ru/forum/comment/13379437) Дед Мороз одобряет!
eN_Slon
На сайте с 13.02.2007
Offline
159
#6
basf:
Ни один граббер не пройдёт

давай сайт. 5 минут и танки в Берлине.

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
basf
На сайте с 13.01.2012
Offline
18
#7

P.S. А ещё можно поиздеваться и страницу с error404 набить сотней-другой баннеров... Или просто, сделать один большой фрейм в который будет грузиться, например, microsoft.com ...

Кстати... Не мешает добавить в .htaccess находящийся в корне сайта следующие строки, для защиты от горе-хакеров-ламеров:


redirect /_vti_bin http://www.microsoft.com
redirect /scripts http://www.microsoft.com
redirect /MSADC http://www.microsoft.com
redirect /c http://www.microsoft.com
redirect /d http://www.microsoft.com
redirect /_mem_bin http://www.microsoft.com
redirect /msadc http://www.microsoft.com
RedirectMatch (.*)\cmd.exe$ http://www.microsoft.com$1

После этого весь подобный мусор будет уходить туда, а к Вам, в течении месяца, на сайт будут приходить "радостные и счастливые" посетители из... самого Микрософта... Ну, с их айпишниками, по крайней мере... Проверено лично.

О
На сайте с 04.08.2009
Offline
145
#8

basf, в личку урл

M
На сайте с 08.11.2008
Offline
122
#9

basf, такое спасёт от простого httpClient.getResponse() и от совсем ленивых "кул-хацкеров".

Окей, вызов принят ☝ Интересно поглядеть на мини рецензию 🍿

basf
На сайте с 13.01.2012
Offline
18
#10
.htaccess Боец невидимого фронта

Тяжела работа web-мастрера… Вот проникнут к нам на сайт хотлинкеры, бэкдорщики и прочие пираты, накажут нас на трафик, украдут пароль, завалят трафиком из стран третьего мира... Куда бежать, у кого искать защиты?! Есть такой защитник! Примчится он, как "ужас, летящий на крыльях ночи", стражем станет на защите сайта с мечом в руках! И скромен он настолько, что даже точку ставит не после своего имени, а до, и пишется с маленькой буквы — файл .htaccess
Это простой текстовый файл, содержащий набор инструкций для Apache. Помещается он в одну из директорий вашего сайта; причем защищает он не только ту директорию, в которой расположен, но и все вложенные. Создадим пустой файл в нужной директории:
$cd /home/имя_пользователя/public_html/www
$touch .htaccess
$mcedit .htaccess
Первым же делом мы… снова переопределим начальный файл загрузки. Только теперь уже понажимаем клавиши на клавиатуре основательно.
DirectoryIndex bdfgsfrgwuehrfieh.html
Вот так! Просто нажимаем хаотично клавиатуру и получаем случайную комбинацию букв, добавляя в конце точку и html. Сохраняем изменения. Переименовываем стартовый файл загрузки, который когда-то назывался index.html… Проверяем, что всё работает нормально, загружая сайт в браузер на своём компьютере. Если сайт не открывается, могли ошибиться с какой-либо буквой, их много было. Теперь возьмём за правило: каждый наш новый сайт должен будет иметь уникальное имя главной страницы, никаких повторений! Осторожность не повредит. Строго говоря, вообще не стоит делать стартовой страницей html-файл. Лучше «обрамить его в php-окружение». Поясню на примере. Вот простейший тестовый файл html:
<html><body><h1>Its works!</h1></body></html>
Теперь делаем его php-скриптом, и меняем имя на bdfgsfrgwuehrfieh.php:

<?php
echo “<html><body><h1>Its works!</h1></body></html>”;
?>
Объясняю почему. Сервера на которых располагается платный хостинг очень сильно привлекают определённую группу лиц. Т.к. или через кривой скрипт php неопытного пользователя, или, что ещё проще – взяв платный аккаунт на самом хостинге, можно заразить вредоносным кодом не только html-файлы одного пользователя, но и всех его соседей. Но, поскольку всё это планируется делать скриптом автоматически, то заражению подвергаются только html-файлы в корне домашней директории. Все html-файлы в поддиректориях оставались всегда целыми. Такое было неоднократно, на разных хостингах, никак не связанных между собой. Просто многие об этом умалчивают, не ставя своих клиентов в известность. Поэтому совет: все файлы – подальше от корня, особенно html. Нестандартная структура сайта – всегда большая проблема, для стандартных хакерских скриптов. Именно для стандартных, т.е. тогда, когда Ваш сайт не является прямым объектом для атаки.
Продолжим редактировать .htaccess.
Options –Indexes
Эта опция запрещает вывод содержимого директории, при отсутствии индексного файла. Зачем постороннему человеку видеть список наших html-файлов, php-скриптов, jpg, gif и прочего? Не нужно ему этого.
Укажем кодировку для всех документов по умолчанию. Например:
AddDefaultCharset UTF-8
Или же:
AddDefaultCharset windows-1251
Теперь начнём разбираться с всякими нехорошими личностями и их серверами… Самых наглых и настойчивых пошлём далеко, надолго, в неизвестном направлении. Просто запретив их, иногда даже целыми подсетками, ибо достали:
deny from 213.182.197.
deny from 203.120.
deny from 203.121.
deny from 203.122.
deny from 203.123.
deny from 203.124.
Этими строчками полностью закрываем доступ с компьютеров имеющих IP адреса 213.182.197.0/24 и далее, по списку. Менее наглых, которых намного больше, будем посылать изысканно, во вполне определённом направлении:
redirect /_vti_bin http://www.dfghj.zu

redirect /scripts http://www. dfghj.zu
redirect /MSADC http://www. dfghj.zu
redirect /c http://www. dfghj.zu
redirect /d http://www. dfghj.zu
redirect /_mem_bin http://www. dfghj.zu
redirect /msadc http://www. dfghj.zu
RedirectMatch (.*)\cmd.exe$ http://www. dfghj.zu $1
Всех горе-хакеров посылаем на несуществующий домен dfghj.zu. Здесь мог быть и любой другой, вполне работающий домен. Некоторые, вот так любят пакостить Биллу Гейтсу, отправляя всех незваных на сайт Микрософта. Некоторые, так пытаются насолить сайту Пентагона. Не будем им уподобляться.
Предположим, у Вас есть большая галерея. Так много картинок и фотографий, что Вы взяли под них отдельный сервер. Кому-то тоже может понравиться Ваша коллекция и он недолго думая будет ставить ссылки на фотографии со своих сайтов и форумов. Если у Вас ещё и эротика, то трафик может вырасти в разы! Не позволим!!!
AuthUserFile /dev/null
AuthGroupFile /dev/null
RewriteEngine On
RewriteCond %{HTTP_REFERER} !^http://www.domain.info/
RewriteCond %{HTTP_REFERER} !^http://domain.info/
RewriteCond %{HTTP_REFERER} !>http://www.domain.info:80 [NC]
RewriteCond %{HTTP_REFERER} !>http://domain.info:80 [NC]
RewriteCond %{HTTP_REFERER} !^http://www.domain.cc/
RewriteCond %{HTTP_REFERER} !^http://domain.cc/
RewriteCond %{HTTP_REFERER} !>http://www.domain.cc:80 [NC]
RewriteCond %{HTTP_REFERER} !>http://domain.cc:80 [NC]
RewriteRule /* http:// YourSponsor.com/click.cgi?out=user1 [R,L]
Что это значит? Если на сервер придет запрос на страницу не с указанных доменов, а из какого-то другого места (т.е. бэкдор), то сервер, вместо удовлетворения запроса, отправит серфера прямо на спонсора (или в какое-нибудь другое равноудаленное место), целевой адрес которого указан в последней строчке. Это может быть и главная страница Вашего сайта. Теперь невозможно будет напрямую набрать в адресной строке броузера урл какой-нибудь страницы или картинки с Вашего сайта.
Однако, честно зашедшему посетителю может настолько понравиться ваш сайт, что он захочет выкачать его целиком для последующего офф-лайнового наслаждения.
Предосудительный поступок!!! А рекламу и баннеры кто просматривать будет, Пушкин? Не позволим серферу такого!
RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^DISCoPump.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MisterPiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PapaFoto.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut.*
RewriteRule .[Jj][Pp][Gg]*$ /Dont_grab_my_pics.gif [L]

RewriteCond %{HTTP_REFERER} ^http://.*adfilter.com.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://207.198.147.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://www.neocities.* [OR]
RewriteCond %{HTTP_REFERER} ^http://chat.passagen.s.* [OR]
RewriteCond %{HTTP_REFERER} ^http://volpi.sti.com.* [OR]

RewriteCond %{HTTP_REFERER} ^http://batepapo0.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo1.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo2.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo3.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo4.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo6.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://batepapo7.uol.com.* [OR]
RewriteCond %{HTTP_REFERER} ^http://209.2.137.* [OR]
RewriteCond %{HTTP_REFERER} ^http://207.126.121.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://.*bianca.com/.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://.*angelfire.com/.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://.*hotmail.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://.*yahoo.com.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://.*geocities.com.*$ [OR]
RewriteCond %{HTTP_REFERER} ^http://www.partyhouse.*$
RewriteRule .[Jj][Pp][Gg]*$ /Dont_grab_my_pics.gif [L]

В первом блоке мы перечисляем все известные нам офф-лайн браузеры и сайтограбилки (не их коммерческие названия, а значения, которые они передают в параметре HTTP_USER_AGENT). На запросы этих программ сервер отправит не JPG-файл (его, в виде [Jj][Pp][Gg] мы проставляем в строке RewriteRule), а крохотный однопиксельный Dont_grab_my_pics.gif.
Во втором блоке мы запрещаем серверу удовлетворять запросы с некоторых адресов, справедливо полагая, что, к примеру, с geocities.com ничего хорошего нам ожидать не приходится. Эти домены мы узнаем по логам нашего сервера и вносим в список.

..........

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий