Комментарии - mendel - Профиль вебмастера - Форум об интернет-маркетинге

Скрипт сбора статистики с liveinternet.ru

11 декабря 2008, 09:52

bimcom:
там нигде редиректы не используются.

просто лишняя строчка была? чувствую мне уже пора начинать читать ваш код прежде чем комментировать :) честно говоря думал что редирект был сделан штатными средствами, потому и ошибка такая (FOLLOWLOCATION это автоматическая отработка переадресаций).

Размножение статей 10$ за 1000

11 декабря 2008, 08:39

Antox@:

Степень уникальности - DCFinder , яндекс, гугл, copyscape - копий не находит.

А истио находит? 😆

шутка ) думаю что не найдет. дцпфайндер более агресивный и придирчивый.

за статейку из 900 знаков возьметесь?

только мне надо не тысячу а тысяч пятьдесят. Понятно что уникальность внутри будет хромать...

Если подходит то плиз в аську за деталями.

Скрипт сбора статистики с liveinternet.ru

11 декабря 2008, 08:30

bimcom, у чела safe-mode включен.

без вариантов - CURLOPT_FOLLOWLOCATION не пойдет у него.

тут надо править конфиги хостера :)

или менять логику отработки переадресации.

вот кусочек из одного моего парсера который обходится без этой фичи.

function bot1($url,$n=1)
	{
	$user_agent="Istio.Bot (istio.com)";
	// получим контент
	$ch = curl_init();    // initialize curl handle
	curl_setopt($ch, CURLOPT_URL, $url); // set url to post to
	curl_setopt($ch, CURLOPT_HEADER, TRUE);
//	curl_setopt($ch, CURLOPT_FAILONERROR, 1);              // Fail on errors
	curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); // return into a variable
	curl_setopt($ch, CURLOPT_TIMEOUT, 15); // times out after 15s
	curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
	$document = curl_exec($ch);
	curl_close($ch);
	// ******************************************************************
	// извлечем HTTP_HEAD
	// ******************************************************************
	list($http_head,$document)=explode('<',$document,2);
	$document='<'.$document;
	// ******************
	if (strstr($http_head,'HTTP/1.1 3') AND $n<=3)
		{
		preg_match_all('@^Location:[ ]+([^ \s\r\n\t\f]*)@mi', $http_head,$url);
		$url=$url[1][0];
		$document=bot1($url,$n+1);
		$url=$document['URL'];
		$document=$document['document'];
		}
	// проверим не utf ли?
	$utf=FALSE;
	if (strstr($http_head,'utf-8') OR strstr($http_head,'UTF-8')) $utf=TRUE;
	return array('document'=>$document,'URL'=>$url,'utf'=>$utf,'http_head'=>$http_head,'file_len'=>strlen($document));
	}

Немного кривовато, и немного больше функций чем нужно вам, но работает :)

думаю упростить будет проще чем писать заново.

mendel добавил 11.12.2008 в 11:31

PS: а вообще лучше в аську стукнись :)

Копирайт за отзыв

10 декабря 2008, 16:18

Статью получил.

В принципе четыре с плюсом.

1 - статья слишком маленькая (хотя о размере мы не договаривались, но меньше тысячи знаков это слишком мало)

2 - были несколько абзацев которые пришлось удалить :) и другие небольшие ляпы показавшие что копирайтер не совсем разобрался в теме :)

при этом были учтены мои пожелания, был выдержан запрошенный стиль и в принципе статья получилась более менее "продающей". По крайней мере с виду на такую похожа.

istio.com - Анализ качества текстов и сайтов.

10 декабря 2008, 14:23

Antox@:
да, действительно отличный сервис - давно им пользуюсь. Много своих плюсов и один из них это : скорость проверки на уник. DCFinder отдыхает.

спасибо за отзыв, но вы не ответили на вопрос - "нормально ли теперь работает поиск?"

Скрипт сбора статистики с liveinternet.ru

10 декабря 2008, 14:18

bimcom:
Попробовал переделать на разбор csv файла, но одна досадность - там нету сравнения посещаемости относительно вчерашнего дня в данное время (+ столько-то или - столько-то)

угу. я тоже ее не нашел. думаю что можно достать, но лично мне такая инфа была не нужна.

bimcom:
Но за счет того что загружать необходимо 1кб вместо 35кб скорость отработки срипта выросла в 4 раза :)

:) о чем я и говорил.

Размножение статей 10$ за 1000

10 декабря 2008, 12:14

Антон, вы определитесь - десять или восемь? :)

да и вообще дешево что-то. Степень уникальности?

Примеры есть?

Отзывы?

Копирайт за отзыв

10 декабря 2008, 12:07

mvsvektor:
Постучал в асю, только тишина там

иногда люди обедают. и со мной такое тоже случается :)

ответил.

Скрипт сбора статистики с liveinternet.ru

10 декабря 2008, 12:04

bimcom:
-иначе нужно хранить пароль в чистом виде, а это не есть норма.

ваш хеш это тот же пароль.

И если человек знал где его искать, то он будет знать как его использовать.

А вот то что вы держите конфиг открытым для доступа из внешнего мира это точно не есть норма :) Если лень играться с htaccess и тп (мне лично лень в дешевых проектах) то можно делать конфиг в виде:


<?php

GLOBAL $CONFIG;

$CONFIG=array(

'параметр1'=>'значение1',

'параметр2'=>'значение2',

'параметр3'=>'значение3',

'параметр4'=>'значение4'

?>

ну или что-то вроде... да, менее эргономично, зато безопасно.

bimcom:
-в добавок придется после ввода чистого пароля делать редирект на страницу в которую добавлять сессию (сессия у ЛИ длится 1н час) а это увеличение времени работы скрипта в 2 раза

не в два раза, а на сотню миллисекунд для каждого запроса. У вас же многопоточность, так что это не влияет ни на что. Если вы делаете запрос с паролем, то вы получаете редирект на адрес с сессией. поскольку html-кода там нет, то и времени на его обработку не нужно. А вот парсинг html-кода действительно увеличивает время обработки в разы.

bimcom:
в csv не отображается статистика за текущий день, а только за предидущие

Это вам кто сказал? :)

Любимов утверждал что все запросы абсолютно идентичны что в csv что в html...

я правда ему не верю - в csv я получаю больше информации чем в html. :)

опровержение вашего утверждения - http://www.liveinternet.ru/stat/istio.com/index.csv?password=testpass

смотрим данные, сравниваем с тем что в html... :)

bimcom:
В ссылке что вы указали решения для отображения на1м сайте, тоесть настройка щетчика НА сайте. И не получится реализовать сбор статистики.

Странно. У меня получается :)

Вы не любите кошек? Может быть вы просто не умеете их готовить? :)

PS: вы не обижайтесь, я не придираюсь - то что выкладываете свою работу в публик это уже хорошо. Просто не первый день работаю со статистикой ливинета, и ваши не совсем правильные высказывания немного коробят.

определить : НАЙДЕН ПО ССЫЛКЕ

10 декабря 2008, 10:58

decontenance:
Спасибо) Осталось наверное придумать как обойти капчу)

xml юзать надо. Тогда и капчи не будет.

в принципе все просто, главное лимиты не превысить :)

Если есть вопросы - пишем в асю.

offtop: последний раз в РСЯ мне сказали что у меня посещаемость маленькая. Так что есть надежда что таки примут, тогда и лимиты снимем, и сделаю такой сервис по найденным ссылкам.

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

mendel