Andrey-k

Рейтинг
33
Регистрация
02.11.2006
pavel419:
Ссылка битая покамест...Что-то я не очень понял. зачем нужен этот скрипт?

в частности, для выявления плохо продающихся страниц. а так очень подробная статистика.

kxk:
Andrey-k, код открытый ?

да, разумеется, код открыт

Jose:
Проверьте ссылку, у меня незаходит.

возможно еще не обновились DNS. подождите, пожалуйста, несколько минут.

Pol Fransheski:
Прошу прощения
За что отвечает $delay = '3'; ? ( Програмёр я никакой )
И ещё один вопрос
Запустил скрипт Он спарсил 2000 урлов Хотя в разделе 6500.

это задержка в секундах в переходе к следующей странице.

возможно яндекс заблокировал ip, попробуйте увеличить $delay.

если не поможет - в самом начале скрипта впишите строку:

set_time_limit(600);

подводя итоги: 0р., 0$, 4 "+", 1 "-" с претензией, мол, зачем выкладывать в паблик?

ну хотя бы для того, чтобы на моих сайтах в sape были тематические ссылки.

BrokenBrake:
Яндексоиды позорники, до сих пор тэгом font пользуются... 21 век. Россия.

это еще pda-версия. а на обычной вообще паттерн фиг напишешь - столько косяков =)

юни:
Товарищи демоны, черкните тут строчку кода, чтобы 1) к списку сайтов добавлялся порядковый номер, и 2) чтобы сделать задержку запроса к Яндексу, в 2-3 секунды.

Автору - респект. :)

P.S. Желательно отдельной строкой, чтобы её закомментить можно было, при желании.

<? 


$cat = 'Business/Corporate_Services/Business_Contacts/';
$delay = '3';

$url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat;
$np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';
$yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';

echo "<ol>";

while ($data = file_get_contents($url)) {
$data = iconv('utf-8', 'cp1251', $data);
preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER);
foreach ($o1 as $o) echo "<li>".$o[1]; flush();
preg_match($np_pat, $data, $o2);
$url = ($o2 ? $o2[1]:FALSE);
sleep($delay);
}

?>

работающий парсер Яндекс.Каталога есть здесь: /ru/forum/184296

Всего: 105