просто лишняя строчка была? чувствую мне уже пора начинать читать ваш код прежде чем комментировать :) честно говоря думал что редирект был сделан штатными средствами, потому и ошибка такая (FOLLOWLOCATION это автоматическая отработка переадресаций).
А истио находит? 😆
шутка ) думаю что не найдет. дцпфайндер более агресивный и придирчивый.
за статейку из 900 знаков возьметесь?
только мне надо не тысячу а тысяч пятьдесят. Понятно что уникальность внутри будет хромать...
Если подходит то плиз в аську за деталями.
bimcom, у чела safe-mode включен.
без вариантов - CURLOPT_FOLLOWLOCATION не пойдет у него.
тут надо править конфиги хостера :)
или менять логику отработки переадресации.
вот кусочек из одного моего парсера который обходится без этой фичи.
function bot1($url,$n=1) { $user_agent="Istio.Bot (istio.com)"; // получим контент $ch = curl_init(); // initialize curl handle curl_setopt($ch, CURLOPT_URL, $url); // set url to post to curl_setopt($ch, CURLOPT_HEADER, TRUE);// curl_setopt($ch, CURLOPT_FAILONERROR, 1); // Fail on errors curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); // return into a variable curl_setopt($ch, CURLOPT_TIMEOUT, 15); // times out after 15s curl_setopt($ch, CURLOPT_USERAGENT, $user_agent); $document = curl_exec($ch); curl_close($ch); // ****************************************************************** // извлечем HTTP_HEAD // ****************************************************************** list($http_head,$document)=explode('<',$document,2); $document='<'.$document; // ****************** if (strstr($http_head,'HTTP/1.1 3') AND $n<=3) { preg_match_all('@^Location:[ ]+([^ \s\r\n\t\f]*)@mi', $http_head,$url); $url=$url[1][0]; $document=bot1($url,$n+1); $url=$document['URL']; $document=$document['document']; } // проверим не utf ли? $utf=FALSE; if (strstr($http_head,'utf-8') OR strstr($http_head,'UTF-8')) $utf=TRUE; return array('document'=>$document,'URL'=>$url,'utf'=>$utf,'http_head'=>$http_head,'file_len'=>strlen($document)); }
Немного кривовато, и немного больше функций чем нужно вам, но работает :)
думаю упростить будет проще чем писать заново.
mendel добавил 11.12.2008 в 11:31
PS: а вообще лучше в аську стукнись :)
Статью получил.
В принципе четыре с плюсом.
1 - статья слишком маленькая (хотя о размере мы не договаривались, но меньше тысячи знаков это слишком мало)
2 - были несколько абзацев которые пришлось удалить :) и другие небольшие ляпы показавшие что копирайтер не совсем разобрался в теме :)
при этом были учтены мои пожелания, был выдержан запрошенный стиль и в принципе статья получилась более менее "продающей". По крайней мере с виду на такую похожа.
спасибо за отзыв, но вы не ответили на вопрос - "нормально ли теперь работает поиск?"
угу. я тоже ее не нашел. думаю что можно достать, но лично мне такая инфа была не нужна.
:) о чем я и говорил.
Антон, вы определитесь - десять или восемь? :)
да и вообще дешево что-то. Степень уникальности?
Примеры есть?
Отзывы?
иногда люди обедают. и со мной такое тоже случается :)
ответил.
ваш хеш это тот же пароль.
И если человек знал где его искать, то он будет знать как его использовать.
А вот то что вы держите конфиг открытым для доступа из внешнего мира это точно не есть норма :) Если лень играться с htaccess и тп (мне лично лень в дешевых проектах) то можно делать конфиг в виде:
<?php GLOBAL $CONFIG; $CONFIG=array( 'параметр1'=>'значение1', 'параметр2'=>'значение2', 'параметр3'=>'значение3', 'параметр4'=>'значение4' ?>
ну или что-то вроде... да, менее эргономично, зато безопасно.
не в два раза, а на сотню миллисекунд для каждого запроса. У вас же многопоточность, так что это не влияет ни на что. Если вы делаете запрос с паролем, то вы получаете редирект на адрес с сессией. поскольку html-кода там нет, то и времени на его обработку не нужно. А вот парсинг html-кода действительно увеличивает время обработки в разы.
Это вам кто сказал? :)
Любимов утверждал что все запросы абсолютно идентичны что в csv что в html...
я правда ему не верю - в csv я получаю больше информации чем в html. :)
опровержение вашего утверждения - http://www.liveinternet.ru/stat/istio.com/index.csv?password=testpass
смотрим данные, сравниваем с тем что в html... :)
Странно. У меня получается :)
Вы не любите кошек? Может быть вы просто не умеете их готовить? :)
PS: вы не обижайтесь, я не придираюсь - то что выкладываете свою работу в публик это уже хорошо. Просто не первый день работаю со статистикой ливинета, и ваши не совсем правильные высказывания немного коробят.
xml юзать надо. Тогда и капчи не будет.
в принципе все просто, главное лимиты не превысить :)
Если есть вопросы - пишем в асю.
offtop: последний раз в РСЯ мне сказали что у меня посещаемость маленькая. Так что есть надежда что таки примут, тогда и лимиты снимем, и сделаю такой сервис по найденным ссылкам.