mendel

mendel
Рейтинг
232
Регистрация
06.03.2008
bimcom:
там нигде редиректы не используются.

просто лишняя строчка была? чувствую мне уже пора начинать читать ваш код прежде чем комментировать :) честно говоря думал что редирект был сделан штатными средствами, потому и ошибка такая (FOLLOWLOCATION это автоматическая отработка переадресаций).

Antox@:

Степень уникальности - DCFinder , яндекс, гугл, copyscape - копий не находит.

А истио находит? 😆

шутка ) думаю что не найдет. дцпфайндер более агресивный и придирчивый.

за статейку из 900 знаков возьметесь?

только мне надо не тысячу а тысяч пятьдесят. Понятно что уникальность внутри будет хромать...

Если подходит то плиз в аську за деталями.

bimcom, у чела safe-mode включен.

без вариантов - CURLOPT_FOLLOWLOCATION не пойдет у него.

тут надо править конфиги хостера :)

или менять логику отработки переадресации.

вот кусочек из одного моего парсера который обходится без этой фичи.

function bot1($url,$n=1)
{
$user_agent="Istio.Bot (istio.com)";
// получим контент
$ch = curl_init(); // initialize curl handle
curl_setopt($ch, CURLOPT_URL, $url); // set url to post to
curl_setopt($ch, CURLOPT_HEADER, TRUE);
// curl_setopt($ch, CURLOPT_FAILONERROR, 1); // Fail on errors
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); // return into a variable
curl_setopt($ch, CURLOPT_TIMEOUT, 15); // times out after 15s
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
$document = curl_exec($ch);
curl_close($ch);
// ******************************************************************
// извлечем HTTP_HEAD
// ******************************************************************
list($http_head,$document)=explode('<',$document,2);
$document='<'.$document;
// ******************
if (strstr($http_head,'HTTP/1.1 3') AND $n<=3)
{
preg_match_all('@^Location:[ ]+([^ \s\r\n\t\f]*)@mi', $http_head,$url);
$url=$url[1][0];
$document=bot1($url,$n+1);
$url=$document['URL'];
$document=$document['document'];
}
// проверим не utf ли?
$utf=FALSE;
if (strstr($http_head,'utf-8') OR strstr($http_head,'UTF-8')) $utf=TRUE;
return array('document'=>$document,'URL'=>$url,'utf'=>$utf,'http_head'=>$http_head,'file_len'=>strlen($document));
}

Немного кривовато, и немного больше функций чем нужно вам, но работает :)

думаю упростить будет проще чем писать заново.

mendel добавил 11.12.2008 в 11:31

PS: а вообще лучше в аську стукнись :)

Статью получил.

В принципе четыре с плюсом.

1 - статья слишком маленькая (хотя о размере мы не договаривались, но меньше тысячи знаков это слишком мало)

2 - были несколько абзацев которые пришлось удалить :) и другие небольшие ляпы показавшие что копирайтер не совсем разобрался в теме :)

при этом были учтены мои пожелания, был выдержан запрошенный стиль и в принципе статья получилась более менее "продающей". По крайней мере с виду на такую похожа.

Antox@:
да, действительно отличный сервис - давно им пользуюсь. Много своих плюсов и один из них это : скорость проверки на уник. DCFinder отдыхает.

спасибо за отзыв, но вы не ответили на вопрос - "нормально ли теперь работает поиск?"

bimcom:
Попробовал переделать на разбор csv файла, но одна досадность - там нету сравнения посещаемости относительно вчерашнего дня в данное время (+ столько-то или - столько-то)

угу. я тоже ее не нашел. думаю что можно достать, но лично мне такая инфа была не нужна.

bimcom:
Но за счет того что загружать необходимо 1кб вместо 35кб скорость отработки срипта выросла в 4 раза :)

:) о чем я и говорил.

Антон, вы определитесь - десять или восемь? :)

да и вообще дешево что-то. Степень уникальности?

Примеры есть?

Отзывы?

mvsvektor:
Постучал в асю, только тишина там

иногда люди обедают. и со мной такое тоже случается :)

ответил.

bimcom:
-иначе нужно хранить пароль в чистом виде, а это не есть норма.

ваш хеш это тот же пароль.

И если человек знал где его искать, то он будет знать как его использовать.

А вот то что вы держите конфиг открытым для доступа из внешнего мира это точно не есть норма :) Если лень играться с htaccess и тп (мне лично лень в дешевых проектах) то можно делать конфиг в виде:


<?php
GLOBAL $CONFIG;
$CONFIG=array(
'параметр1'=>'значение1',
'параметр2'=>'значение2',
'параметр3'=>'значение3',
'параметр4'=>'значение4'
?>

ну или что-то вроде... да, менее эргономично, зато безопасно.

bimcom:
-в добавок придется после ввода чистого пароля делать редирект на страницу в которую добавлять сессию (сессия у ЛИ длится 1н час) а это увеличение времени работы скрипта в 2 раза

не в два раза, а на сотню миллисекунд для каждого запроса. У вас же многопоточность, так что это не влияет ни на что. Если вы делаете запрос с паролем, то вы получаете редирект на адрес с сессией. поскольку html-кода там нет, то и времени на его обработку не нужно. А вот парсинг html-кода действительно увеличивает время обработки в разы.

bimcom:
в csv не отображается статистика за текущий день, а только за предидущие

Это вам кто сказал? :)

Любимов утверждал что все запросы абсолютно идентичны что в csv что в html...

я правда ему не верю - в csv я получаю больше информации чем в html. :)

опровержение вашего утверждения - http://www.liveinternet.ru/stat/istio.com/index.csv?password=testpass

смотрим данные, сравниваем с тем что в html... :)

bimcom:
В ссылке что вы указали решения для отображения на1м сайте, тоесть настройка щетчика НА сайте. И не получится реализовать сбор статистики.

Странно. У меня получается :)

Вы не любите кошек? Может быть вы просто не умеете их готовить? :)

PS: вы не обижайтесь, я не придираюсь - то что выкладываете свою работу в публик это уже хорошо. Просто не первый день работаю со статистикой ливинета, и ваши не совсем правильные высказывания немного коробят.

decontenance:
Спасибо) Осталось наверное придумать как обойти капчу)

xml юзать надо. Тогда и капчи не будет.

в принципе все просто, главное лимиты не превысить :)

Если есть вопросы - пишем в асю.

offtop: последний раз в РСЯ мне сказали что у меня посещаемость маленькая. Так что есть надежда что таки примут, тогда и лимиты снимем, и сделаю такой сервис по найденным ссылкам.

Всего: 1906