Закрытие доступа к автоматическим парсерам

MagOfSeo
На сайте с 28.07.2011
Offline
49
764

Добрый день.

У меня есть проект под зарубеж, у которого постоянно тырят контент.

Сегодня размещаю и завтра он уже на сотне доров висит.

Подскажите, есть ли какие то команды для .htaccess что бы залочить доступ для всех роботов за исключением Google и Bing?

[umka]
На сайте с 25.05.2008
Offline
456
#1
MagOfSeo:
Подскажите, есть ли какие то команды для .htaccess что бы залочить доступ для всех роботов за исключением Google и Bing?

Нет.......

Лог в помощь!
Artisan
На сайте с 04.03.2005
Offline
354
#2
MagOfSeo:
Подскажите, есть ли какие то команды для .htaccess что бы
залочить доступ для всех роботов за исключением Google и Bing?
'[umka:
;14499480']Нет.......

Есть, можно позволить только

IP номера желательных роботов.

А всех остальных пускать

через проверку человечности.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
[umka]
На сайте с 25.05.2008
Offline
456
#3

Тогда поделитесь директивами .htaccess для проверки человечности :)

Artisan
На сайте с 04.03.2005
Offline
354
#4
'[umka:
;14499648']Тогда поделитесь директивами
.htaccess для проверки человечности :)

Обрабатывать 403 ошибку с проверкой человечности,

и временно позволять IP номер успешных проверок.

https://en.wikipedia.org/wiki/HTTP_403

V
На сайте с 01.10.2006
Offline
136
#5
'[umka:
;14499648']Тогда поделитесь директивами .htaccess для проверки человечности :)

Какие-то, возможно, подойдут.

RewriteCond %{HTTP_USER_AGENT} "^Python" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^Wget" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^Lynx" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^masscan" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^scan" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^libwww-perl" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^perl" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^InetURL" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^SEOkicks" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "^AhrefsBot" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)" [nocase]
RewriteRule ^.*$ – [forbidden,last]

RewriteCond %{HTTP_USER_AGENT} (\<|\>|\'|\$x0E|\%0A|\%0D|\%27|\%3C|\%3E|\%00|\@\$x|\!susie|\_irc|\_works|\+select\+|\+union\+|\&lt;\?|1\,\1\,1\,|3gse|4all|4anything|5\.1\;\ xv6875\)|59\.64\.153\.|85\.17\.|88\.0\.106\.|a\_browser|a1\ site|abac|abach|abby|aberja|abilon|abont|abot|accept|access|accoo|accoon|aceftp|acme|active|address|adopt|adress|advisor|agent|ahead|aihit|aipbot|alarm|albert|alek|alexa\ toolbar\;\ \(r1\ 1\.5\)|alltop|alma|alot|alpha|america\ online\ browser\ 1\.1|amfi|amfibi|anal|andit|anon|ansearch|answer|answerbus|answerchase|antivirx|apollo|appie|arach|archive|arian|aboutoil|asps|aster|atari|atlocal|atom|atrax|atrop|attrib|autoh|autohot|av\ fetch|avsearch|axod|axon|baboom|baby|back|bali|bandit|barry|basichttp|batch|bdfetch|beat|beaut|become|bee|beij|betabot|biglotron|bilgi|binlar|bison|bitacle|bitly|blaiz|blitz|blogl|blogscope|blogzice|bloob|blow|bord|bond|boris|bost|bot\.ara|botje|botw|bpimage|brand|brok|broth|browseabit|browsex|bruin|bsalsa|bsdseek|built|bulls|bumble|bunny|busca|busi|buy|bwh3|cafek|cafi|camel|cand|captu|casper|catch|ccbot|ccubee|cd34|ceg|cfnetwork|cgichk|cha0s|chang|chaos|char|char\(|chase\ x|check\_http|checker|checkonly|checkprivacy|chek|chill|chttpclient|cipinet|cisco|cita|citeseer|clam|claria|claw|cloak|clshttp|clush|coast|cmsworldmap|code\.com|cogent|coldfusion|coll|collect|comb|combine|commentreader|common|comodo|compan|compatible\-|conc|conduc|contact|control|contype|conv|cool|copi|copy|coral|corn|cosmos|costa|cowbot|cr4nk|craft|cralwer|crank|crap|crawler0|crazy|cres|cs\-cz|cshttp|cuill|CURI|curl|curry|custo|cute|cyber|cz3|czx|daily|dalvik|daobot|dark|darwin|data|daten|dcbot|dcs|dds\ explorer|deep|deps|detect|dex|diam|diavol|diibot|dillo|ding|disc|disp|ditto|dlc|doco|dotbot|drag|drec|dsdl|dsok|dts|duck|dumb|eag|earn|earthcom|easydl|ebin|echo|edco|egoto|elnsb5|email|emer|empas|encyclo|enfi|enhan|enterprise\_search|envolk|erck|erocr|eventax|evere|evil|ewh|exac|exploit|expre|extra|eyen|fang|fast|fastbug|faxo|fdse|feed24|feeddisc|feedfinder|feedhub|fetch|filan|fileboo|fimap|find|firebat|firedownload\/1\.2pre\ firefox\/3\.6|firefox\/0|firs|flam|flash|flexum|flicky|flip|fly|focus|fooky|forum|forv|fost|foto|foun|fount|foxy\/1\;|free|friend|frontpage|fuck|fuer|futile|fyber|gais|galbot|gbpl|gecko\/2001|gecko\/2002|gecko\/2006|gecko\/2009042316|gener|geni|geo|geona|geth|getr|getw|ggl|gira|gluc|gnome|go\!zilla|goforit|goldfire|gonzo|google\ wireless|gosearch|got\-it|gozilla|grab|graf|greg|grub|grup|gsa\-cra|gsearch|gt\:\:www|guidebot|guruji|gyps|haha|hailo|harv|hash|hatena|hax|head|helm|herit|heritrix|hgre|hippo|hloader|hmse|hmview|holm|holy|hotbar\ 4\.4\.5\.0|hpprint|href\s|httpclient|httpconnect|httplib|httrack|human|huron|hverify|hybrid|hyper|ia_archiver|iaskspi|ibm\ evv|iccra|ichiro|icopy|ics\)|ida|ie\/5\.0|ieauto|iempt|iexplore\.exe|ilium|ilse|iltrov|indexer|indy|ineturl|infonav|innerpr|inspect|insuran|intellig|interget|internet\_explorer|internet\x|intraf|ip2|ipsel|irlbot|isc\_sys|isilo|isrccrawler|isspi|jady|jaka|jam|jenn|jet|jiro|jobo|joc|jupit|just|jyx|jyxo|kash|kazo|kbee|kenjin|kernel|keywo|kfsw|kkma|kmc|know|kosmix|krae|krug|ksibot|ktxn|kum|labs|lanshan|lapo|larbin|leech|lets|lexi|lexxe|libby|libcrawl|libcurl|libfetch|libweb|light|linc|lingue|linkcheck|linklint|linkman|lint|list|litefeeds|livedoor|livejournal|liveup|lmq|loader|locu|london|lone|loop|lork|lth\_|lwp|mac\_f|magi|magp|mail\.ru|main|majest|mam|mama|mana|marketwire|masc|mass|mata|mvi|mcbot|mecha|mechanize|mediapartners|metadata|metalogger|metaspin|metauri|mete|mib\/2\.2|microsoft\.url|microsoft\_internet\_explorer|mido|miggi|miix|mindjet|mindman|miner|mips|mira|mire|miss|mist|mizz|mj12|mlbot|mlm|mnog|moge|moje|mooz|more|mouse|mozdex) [nocase]
RewriteRule ^.*$ – [forbidden,last]
RewriteCond %{HTTP_USER_AGENT} (black\ hole|titan|webstripper|netmechanic|cherrypicker|emailcollector|emailsiphon|webbandit|emailwolf|extractorpro|copyrightcheck|crescent|wget|sitesnagger|prowebwalker|cheesebot|teleport|teleportpro|miixpc|telesoft|website\ quester|webzip|moget/2\.1|webzip/4\.0|websauger|webcopier|netants|mister\ pix|webauto|thenomad|www-collector-e|rma|libweb/clshttp|asterias|httplib|turingos|spanner|infonavirobot|harvest/1\.5|bullseye/1\.0|mozilla/4\.0\ \(compatible;\ bullseye;\ windows\ 95\)|crescent\ internet\ toolpak\ http\ ole\ control\ v\.1\.0|cherrypickerse/1\.0|cherrypicker\ /1\.0|webbandit/3\.50|nicerspro|microsoft\ url\ control\ -\ 5\.01\.4511|dittospyder|foobot|webmasterworldforumbot|spankbot|botalot|lwp-trivial/1\.34|lwp-trivial|wget/1\.6|bunnyslippers|microsoft\ url\ control\ -\ 6\.00\.8169|urly\ warning|wget/1\.5\.3|linkwalker|cosmos|moget|hloader|humanlinks|linkextractorpro|offline\ explorer|mata\ hari|lexibot|web\ image\ collector|the\ intraformant|true_robot/1\.0|true_robot|blowfish/1\.0|jennybot|miixpc/4\.2|builtbottough|propowerbot/2\.14|backdoorbot/1\.0|tocrawl/urldispatcher|webenhancer|tighttwatbot|suzuran|vci\ webviewer\ vci\ webviewer\ win32|vci|szukacz/1\.4|queryn\ metasearch|openfind\ data\ gathere|openfind|xenu\'s\ link\ sleuth\ 1\.1c|xenu's|zeus|repomonkey\ bait\ &\ tackle/v1\.01|repomonkey|zeus\ 32297\ webster\ pro\ v2\.9\ win32|webster\ pro|erocrawler|linkscan/8\.1a\ unix|keyword\ density/0\.9|kenjin\ spider|cegbfeieh) [nocase]
RewriteRule ^.*$ – [forbidden,last]

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий