PHP-скрипт для парсинга Яндекс.Каталога

1 2345 6
stussy
На сайте с 24.03.2006
Offline
93
#21

Также интересен такой вопрос - можно ли как-то для каждого проекта пользоваться отедльным white list'om? Пока не нашел ответа.

Покупаю сайты.
юни
На сайте с 01.11.2005
Offline
902
#22
stussy:
можно ли как-то для каждого проекта пользоваться отедльным white list'om?

+1 за добавление в "to do".

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
devaka
На сайте с 27.11.2007
Offline
115
#23

2000 он парсит так как максимально количество страниц 100 а на странице по 20 записей

100*20 = 2000

Больше не будет, надо из подкатегорий парсить.

Если кому надо, обращайтесь на мыло optsite[at]yandex.ru

или в асю 285757718. Буду вечером

Сергей

Новичкам о плане раскрутки (/ru/forum/365295) | Продвижение статьями (/ru/forum/357989) | Ошибки SEO (/ru/forum/354029) | © Devaka.ru
AK
На сайте с 02.11.2006
Offline
33
#24
stussy:
Нет. по другим разделам продолжает.
А тайм-лимит как-то изменить можно? (сорри, далеко не программер).

PS скинул бы на благотворительность несколько вмз, если сделаете из скрипта так, чтоб он сразу по 50 ссылок разбивал. то есть тупо 2 br или еще что-то между каждыми 50...чтоб скопировать 50 и вставить в сапе...А то так заколебаться можно 2000 ссылок по 50 отсекать.

Спасибо.

Скинуть на благотоврительность можете бабушке в метро.

Парсинг выбранной категории Я.Каталога + автозагрузка этих сайтов в white-list sape.ru = 100$

stussy
На сайте с 24.03.2006
Offline
93
#25

Andrey-k, А зачем грубить, когда предлагаете услугу? Это пиар-ход? я не хотел Вас обидеть

AK
На сайте с 02.11.2006
Offline
33
#26
stussy:
PS скинул бы на благотворительность несколько вмз, если сделаете из скрипта так, чтоб он сразу по 50 ссылок разбивал.
stussy:
Тогда готов и Жене несколько wmz отдать, Avelon, можешь снять несколько баксиков с моего профиля в сапе, если сделаете.:)

За "несколько баксиков" я даже к компьютеру подходить не буду, а господа из sape просто не почешутся.

stussy:
Andrey-k, А зачем грубить, когда предлагаете услугу? Это пиар-ход? я не хотел Вас обидеть

Да, это пиар-ход, раз вы другими категориями мыслить не можете.

den78ru
На сайте с 12.04.2006
Offline
396
#27

Во время парсинга при переходе на 2-ю страницу:

Warning: file_get_contents(/yca/tungrp/cat/Employment/Freelance/1.html) [function.file-get-contents]: failed to open stream: No such file or directory in D:\aaa\home\localhost\1\index.php on line 8

где 8-я строка:

while ($data = file_get_contents($url)) {

В пхп я ноль, так что мне это не решить :)

Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.
devaka
На сайте с 27.11.2007
Offline
115
#28

попробуйте эту строку

$url = ($o2 ? $o2[1]:FALSE);

замените на эту

$url = ($o2 ? 'http://pda.yaca.yandex.ru". $o2[1]:FALSE);

скрипт вторую страницу ищет у вас на локалке (путь относительный в ссылках)

den78ru
На сайте с 12.04.2006
Offline
396
#29

Ваш вариант не сработал, но идею понял, прописал

$url = ($o2 ? 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat. $o2[1]:FALSE);

всё заработало. ТНХ!

den78ru
На сайте с 12.04.2006
Offline
396
#30

Поскольку скриптик ещё по таймауту жаловался, выкладываю рабочий вариант полностью

<?

set_time_limit(0);

$cat = 'Business/Production/';

$delay = '7';

$url = 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat;

$np_pat = '/<a target="_self" href="(.*)"><font color="#333333">след.<\/font><\/a>/U';

$yc_pat = '/<li>\n<font><a.*href="(.*)".*>.*<\/li>/isU';

echo "<ol>";

while ($data = file_get_contents($url)) {

$data = iconv('utf-8', 'cp1251', $data);

preg_match_all($yc_pat, $data, $o1, PREG_SET_ORDER);

foreach ($o1 as $o) echo "<li>".$o[1]; flush();

preg_match($np_pat, $data, $o2);

$url = ($o2 ? 'http://pda.yaca.yandex.ru/yca/tungrp/cat/'.$cat. $o2[1]:FALSE);

sleep($delay);

}

?>

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий