TF-Studio

TF-Studio
Рейтинг
334
Регистрация
17.08.2010

Более расширенная функция:



function post_content ($url,$postdata)
{
$uagent = "Mozilla/5.0 (Windows NT 5.2; WOW64; rv:10.0.1) Gecko/20100101 Firefox/10.0.1";

$ch = curl_init( $url );
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_ENCODING, "");
curl_setopt($ch, CURLOPT_USERAGENT, $uagent); // useragent
curl_setopt($ch, CURLOPT_TIMEOUT, 120);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $postdata);

$content = curl_exec( $ch );
$err = curl_errno( $ch );
$errmsg = curl_error( $ch );
$header = curl_getinfo( $ch );
curl_close( $ch );

$header['errno'] = $err;
$header['errmsg'] = $errmsg;
$header['content'] = $content;
return $header;
}

php реализация гораздо проще будет для этого скрипта.

PaRaMeter

программа.

чекает все нормально.

munin ?

10 раз

/<a[^<>]*href=['|\"](.*)['|\"][^<>]*>(.*)<\/a>/iU

у меня такая регулярка.

(preg_match("/http:\/\/(www\.){0,1}".$domain."/i", $v)

Так мы определяем, что ссылка не внешняя

Работает более четко.

Но я просил всю функцию (

На входе текст страницы (curl'ом загружен)

Также 3 аргумент скорее нужен (текущая страница, для относительных ссылок)

Подскажите правильную функцию определения всех внутренних ссылок, с учетом абсолютных, относительных, якорных (якоря вырезать)

на входе передается ($text, $domain)

на выходе массив (полных адресов) всех внутренних.

Barlog:
баксов за 50-100 парсер программеру закажите. может и готовые есть решения, не знаю. но задача довольно простая, на полдня работы.

Да ты чё.

25к запросов / сутки.

Яша быстро в бан уберет.

за 50$

напиши мне, а?

Хочу маркет весь выкачать.

Либо мне пора спать, либо неясно выражены пожелания.

с xml работаю постоянно, но не понятно что надо-то...

Всего: 4307