stev

stev
Рейтинг
151
Регистрация
21.06.2009
strilok:
Я вот думал как ВПС выдерживает такое огромное количество дорвеев, тем более динамических. Теперь более понятно ...
А как это грамотно сделать, .htaccess, robots?

В .htaccess

# BEGIN Блокировщик вредных ботов

SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot

SetEnvIfNoCase Referer "semalt\.com|kambasoft\.com|savetubevideo\.com|buttons\-for\-website\.com|sharebutton\.net|soundfrost\.org|srecorder\.com|softomix\.com|softomix\.net|myprintscreen\.com|joinandplay\.me|fbfreegifts\.com|openmediasoft\.com|zazagames\.org|extener\.org|openfrost\.com|openfrost\.net|googlsucks\.com|best\-seo\-offer\.com|buttons\-for\-your\-website\.com|www\.Get\-Free\-Traffic\-Now\.com|best\-seo\-solution\.com|buy\-cheap\-online\.info|site3\.free\-share\-buttons\.com|webmaster\-traffic\.com" bad_bot

Deny from env=bad_bot

# END Блокировщик вредных ботов

MO $$$:
А чем убрать дубли в ключах с перемешанными словами?

вася маша петя
петя вася маша

так что бы осталась одна строчка?

В Яжке по "[!ляляля !люлюлю]"

Ну, в смысле, в KeyCollector'е по "[!QUERY]".

Великая ебель конечно, но она даёт в логику частотности.

зы: А потом в КК в "Анализ неявных дублей" оставляешь кеи с максимальным значением, вот как бы так, если надо.

Sergi0k:
А мне это больше понравилось:-)
http://prntscr.com/ei8uze

Дык, логически верно! Кукла в лифчике просто обязана дефилировать по тротуарной плитке.

А кукла без лифчака пусть на пляже загорает! )

Shmalex:
Может есть регулярка в нотепаде++, как разом убрать все мусорные символы !"№;%:?*/,.

Воспользуйся TextCleaner'ом (резервную копию текста не забудь сделать).

как-то похуй чо ты вскукарекнул

Nickolay365:
покажите, пожалуйста, пример картиночного дора

http://imgur.com

Вот и хорошо что столько вариантов напредлагали, новичкам будет из чего выбрать.

lipton, а тебе сайт надо парсить или sitemap.xml?

Если второе, то вот:

<?php

$url = "http://сайт.ru/sitemap.xml";

function FetchUrl($url, $postvars, $timeout, $ref, $blank){

sleep($timeout);

echo @date("r")." fetching $url \r\n";

$ch = curl_init();

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);

curl_setopt($ch, CURLOPT_HEADER, false);

curl_setopt($ch, CURLOPT_TIMEOUT,30);

curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

curl_setopt($ch, CURLOPT_URL, trim($url));

curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE);

$result = curl_exec($ch);

if($blank == "1"){

$result = preg_replace("/\n/", "", $result);

$result = preg_replace("/\r/", "", $result);

}

curl_close($ch);

return $result;

}

$page = FetchUrl($url, NULL, NULL, NULL, NULL);

preg_match_all("!<loc>(.*?)<\/loc>!si", $page, $out);

foreach($out[1] as $link){

$page = FetchUrl($link, NULL, NULL, NULL, NULL);

preg_match("!<title>(.*?)<\/title>!si", $page, $tit);

exec("echo '".trim($tit[1])."' >> ready.txt");

}

?>

Во ворой строке вводи ссылку на сайтмапу, запускай в браузере и жди.

Спарится в файл ready.txt.

зы: поиском по Сёрчу скрипт нашел, есличо.

Проверил, парсит.

lipton:
это пока сложновато ). мне бы совсем для тупых, чтобы одно окошко. вставил урл- получил список. всё, что я нашел - либо не то, либо ссылки нерабочие, либо сложное типа такого.
ладно, спасибо, будем искать. )

Ввести url сайта, отметить <title> и </title>, и нажать кнопку запуска - это сложно? 😕

lipton:
а тайтлы кто-то парсит? если да, подскажите плз простой скриптик. так, чтобы урл морды вставил, а на выходе все титлы с сайта в тхт. спс )

А чем "Content Downloader X1" не устраивает?

Всего: 1312