.htaccess и скачивание сайта

12
Avatar
На сайте с 18.05.2003
Offline
168
1458

В связи с недавно обсуждавшейся проблемой решил эту ветку начать. Преследую 2 цели:

1) выложить работающий (у меня во всяком случае) .htaccess для тех, кто тожу мучается с его написанием.

2) попытаться собрать список качалок и всяких гадостей, которые email с сайтов дергают.

Если у кого будут дополнения по П.2 - просьба запостить сюда.

ErrorDocument 404 http://сайт.ru/404.html

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^BlackWidow.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Custo.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^DISCo.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^DISCo\ Pump.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Drip.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^eCatch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EirGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EmailWolf.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Gets.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^GetWeb!.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^GrabNet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Grafula.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^HMView.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^HTTPClient.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^HTTrack.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^IBrowse.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InterGET.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JustView.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^larbin.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^LeechFTP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^lftp.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDown.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MisterPiX.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Navroad.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NearSite.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NetAnts.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NetSpider.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NetZIP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Octopus.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Offline.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^OfflineNavigator.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PageGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Papa.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PapaFoto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^pavuk.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^pcBrowser.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^RealDownload.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ReGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SmartDownload.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SpaceBison.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperBot.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Surfbot.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^tAkeOut.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^VoidEYE.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Web\Sucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebAuto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Web.Downloader.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebFetch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSauger.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Webster.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebWhacker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Widow.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Zeus.*

RewriteRule \.(gif|jpg|php|htm|html|shtm|shtml|cgi|rar|exe|pl)$ http://сайт.ru/error.txt [L]

естественно, на серваке должен лежать error.txt в котором можно в разных кодировках написать что-нибудь а-ля "нефиг мой сайт выкачивать!"

в (gif|jpg|php|htm|html|shtm|shtml|cgi|rar|exe|pl)$ можно указывать и другие форматы (смотря что хотите защитить от "слива")

Кстати, у меня хостер в своем ответе по .htaccess поставил лишнюю точку и тем сильно ввел меня в заблуждение ;)

А еще этот веселый БОФХ внес туда инктоми слурп и гугля - наверное решил "подшутить" :) Вышеприведенный .htaccess у меня нормально пашет.

Господа и дамы, если у кого есть дополнения по USER_AGENT'ам - пожалуйста, запостите сюда ! :)

Чуть не забыл - http://сайт.ru/ естественно надо поменять на свой домен ;)

InSAn
На сайте с 13.01.2003
Offline
60
#1

А чем же ia_archiver помешал-то?;)

И еще... слишком много лишнего. Например:

RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDown.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool.* [OR]

можно заменить одной строчкой (которая, кстати, есть):

RewriteCond %{HTTP_USER_AGENT} ^MIDown.* [OR]

Вы же не пишете в алгоритме "если Х больше 1 или если Х больше 2 или если Х больше 3, то..."? Это можно сразу и написать "если Х больше 1, то..."

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)
Avatar
На сайте с 18.05.2003
Offline
168
#2

Просто я не шибко разбираюсь в правилах написания .htaccess :)

хотя предполагал, что "^MIDown.* [OR]" будет достаточно. Спасибо :)

Что такое ia_archiver я к сожалению не знаю - просветите ПЛЗ, как я уже писал, сисоп вредновеселый оказался - в рекомендации гугля указал.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#3

Avatar, ты только усложнил жизнь нормальным пользователям.

Да и сервер думаю довольно хорошо подгружаешь. Основное правило написания .htaccess - KISS.

Avatar
На сайте с 18.05.2003
Offline
168
#4

ia_archiver - alexa.com - нашел.

AiK, а чем я ее нормальным пользователям усложнил можно написать ?

Сервер я врядли сильно подгружаю, в редкий день у меня бывает больше 100 посетителей (но целевых, поэтому хватает)

.htaccess - KISS.

Вы о чем. На Яндексе такая комбинация не встречается ;) Пожалуйста - отвечайте ПОДРОБНЕЕ, а то такими полуответами только в тоску вгоняете :( А ежели это шутка, то для меня (как для неспеца) она непонятна.

LM
На сайте с 30.11.2001
Offline
71
LiM
#5

KISS = Keep Is Simple, Stupid :D

Если можешь не писать, не пиши. Проще надо быть, товарищ... ;)

Посчитай, сколько у тебя запросов к web-серверу идет в сутки. А теперь подумай, долго ли будет исполняться твой файл для каждого из запросов? А если это помножить на посчитанное число запросов?..

Так и завалить сервак недолго...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
Avatar
На сайте с 18.05.2003
Offline
168
#6

Замечательно... нет чтоб неучем обозвать, так ведь сразу - тупицей...:p

AiK
На сайте с 27.10.2000
Offline
257
AiK
#7
AiK, а чем я ее нормальным пользователям усложнил можно написать ?

"Приду, от чего ж не придти" © Формула любви.

Представьте себе, что есть посетители, которые не любят читать онлайн. Потому как в оффлайн часы не тикают. Кто-то с диалапа читает, кто-то из интернет кафе.

А тот, кто захочет - в любом случае это сделает. Подавляющее большинство упомянутых выше утилит предоставляет возможность сменить USER_AGENT'a.

Вы о чем. На Яндексе такая комбинация не встречается Пожалуйста - отвечайте ПОДРОБНЕЕ, а то такими полуответами только в тоску вгоняете А ежели это шутка, то для меня (как для неспеца) она непонятна

Как спец заявляю - лучше не тратить время на поиск различного рода (около) компьютерной документации в рунетовских поисковиках. Во-первых очень велик шанс, что либо ничего не найдёте, либо увязнете в дублях. В Гугле дубли тоже имеются, но они всё же разбавляются нормальными туториалами и гайдами. Сорри за слэнг :).

Что же касается KISS - то это тоже слэнг. Найти можно было в оригинальной документации по mod_rewrite. Расшифровывается как Keep It Simple, Stupid. В данном конкретном случае, очевидно, что список браузеров и нормальных ботов будет короче, чем список оффлайн-браузеров, дунлоад-мэнеджеров и прочих мэйл-экстракторов. Кроме того, вышеупомянутый .htaccess чувствителен к регистру агентов, поэтому во многих случаях он работать не будет.

Avatar
На сайте с 18.05.2003
Offline
168
#8

AiK, Спасибо большое за развернутый ответ :)

Дело в том, что мои посетители - менеджеры рекламных отделов компаний - они ОЧЕНЬ врядли будут что либо читать оффлайн, что и посещаемость по веремени суток подтверждает. Они в подавляющем большинстве с работы сидят.

нормальными туториалами и гайдами.

с таким слэнгом у меня всё ок, тем более что это нормальный английский в русском исполнении ;) я программил несколько лет назад (и довольно долго - лет 5) но не для вэба, а с апачами и прочей полезностью начал знакомиться только сюда попав :) не так давно тобишь, но интересно :)

А почему у меня появилась мысль .htaccess написать - потому что участилось выкачивание портфолио с сайта моей компании. Такие посетители мне вряд ли пригодятся. Для желающих поучиться за счет опыта моих сотрудников в области дизайна и полиграфии есть форум, на котором мы ПОДРОБНО отвечаем даже на глупые вопросы, пущай туда ходят, заодно и форум "живее" будет ;) Ну а в целом - поэкспериментирую с тем, в любую ли директорию можно пихать .htaccess с запретами только для текущей директории. Ежели усё получится, положу такой только в раздел "портфолио", чтобы "не усложнять" :)

Как спец заявляю - лучше не тратить время на поиск различного рода (около) компьютерной документации в рунетовских поисковиках.

Ага... я уже по мануалу нормальному к wwwboard поиски проводил. Ничего путного. На гугле кстати до 30й позиции тоже ничего путного не нашел, после чего желание "реформировать" доску временно поостыло.

В данном конкретном случае, очевидно, что список браузеров и нормальных ботов будет короче

Т.е. лучше написать обратное правило, я так понял (не откидывать заведомо качалки а впускать только нормальных юзер-агентов) ?

В общем - спасибо откликнувшимся. Теперь не только у меня вопросов меньше стало, но и станет у новичков при нахождении этой ветки :)

Кстати, ежели у кого вопросы про допечатную подготовку или настройку софта полиграфического - не стесняйтесь, ежели сам знаю - объясню по человечески. А то у нас иногда даже в серьезных изданиях на эту тему полный бред встречается - народ просто из-за этого путается, не имеющий живой практики :)

Avatar
На сайте с 18.05.2003
Offline
168
#9

Усе проверил, в поддиректориях хтакцессы работают. На портфолио повешу этот большущий, а в корне оставлю только обработчик 404 :)

[Удален]
#10
Как писал Avatar
Усе проверил, в поддиректориях хтакцессы работают. На портфолио повешу этот большущий, а в корне оставлю только обработчик 404 :)

.htaccess действует и на все вложенные директории. Т.е. если он лежит в папке А, в ней же лежит папка В, то на папку В его директивы тоже распространяются.

А вообще, мне кажется, что ты только себе жизнь усложняешь. Все, что выложено в инете всегда можно сп#$@ить... Было бы желание. Очень много качалок, которые могут юзерагента указывать по желанию пользователя.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий