парсер як

R
На сайте с 23.11.2007
Offline
218
599

Добрый.

Нужен декстопный или серверный.

Без разницы.

Цель: отпарсить все урлы с яка.

Есть надежные? Которые работают через несколько Ip?

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)
DOOM
На сайте с 31.10.2006
Offline
126
#1

<?

set_time_limit(0);

$cat = 'Business/Production/';

$delay = '7';

$url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat;

$np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';

$yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';

echo "<ol>";

while ($data = file_get_contents($url)) {

$data = iconv('utf-8', 'cp1251', $data);

preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER);

foreach ($o1 as $o) echo "<li>".$o[1]; flush();

preg_match($np_pat, $data, $o2);

$url = ($o2 ? 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat. $o2[1]:FALSE);

sleep($delay);

}

?>

http://devaka.ru/articles/yaca-parser

http://newseo.890m.com/yaca.php

crosone
На сайте с 28.03.2008
Offline
73
#2
DOOM:
<?
set_time_limit(0);
$cat = 'Business/Production/';
$delay = '7';
$url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat;
$np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';
$yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';
echo "<ol>";
while ($data = file_get_contents($url)) {
$data = iconv('utf-8', 'cp1251', $data);
preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER);
foreach ($o1 as $o) echo "<li>".$o[1]; flush();
preg_match($np_pat, $data, $o2);
$url = ($o2 ? 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat. $o2[1]:FALSE);
sleep($delay);
}
?>

Без маскировки под юзера как резко ловится капча скриптом ? или 7 секунд достаточно чтобы анонимно парсить? 😕

٩(๏̯͡๏)۶

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий