Парсер прямого эфира Яндекса (PHP + MySQL)

123
Stripe
На сайте с 05.09.2006
Offline
222
#11
Восток:
задержка 1 сек, вместо крона использовал свою программу

буквально через минуту работы скрипта схватил бан, до сих пор не разбанен. Проксей нужно будет ОЧЕНЬ много чтобы собрать что-то внятное.

Я так ни когда не наглел :))) Или пачка проксей, или пачка хостингов вас спасут.

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
Восток
На сайте с 27.09.2009
Offline
90
#12

ура меня разбанили на

http://stat.yandex.ru/queries/last20.xml

Думаю с задержкой в 1 сек действително погорячился, и жадность как говорят сгубила :)

радует что:

1. Бан не вечный и недолгий (1-2 часа)

2. Прокси не нужны/ нужны немного (10-20 можно найти)

буду эксперементировать с частотой граббинга (думаю раз в 10-30 сек можно ставить на ночь и сутра получить большую базу)

РАБОТАЕМ ДАЛЬШЕ :)

E2
На сайте с 15.12.2006
Offline
128
#13

Кроме как ловля свежеиспечённых ВЧ-запросов на ум ничего не приходит ;( Ну, т.е. если вдруг все ломанутся искать что-то новое.. или там новости на какую-то тему.

Но опять же надо успеть довольно быстро сбацать на эту тему сайт и, к тому же, продвинуть его ;)) А апдейты и индексации не так чтобы сильно зачастили.

Ап! И тигры у ног моих сели.
Stripe
На сайте с 05.09.2006
Offline
222
#14

Я использую для сбора баз и еще для одной темы, но об этом вслух говорить не стану :)

Stripe
На сайте с 05.09.2006
Offline
222
#15

Обновлен парсер прямого эфира Яндекса. Теперь он парсит через прокси, прокси берет с текстовика, который лежит где-то у вас на сайте.

Адрес текстовика с вашими прокси вы можете задать на 18 строке. Каждая прокси в формате адрес:порт должна бать с новой строки.

Забираем парсер.

ЗЫ: Если вам необходимо будет брать брать список прокси из текстового файла с вашего компьютера, обращайтесь, сделаю и такую версию.

orbea
На сайте с 30.11.2009
Offline
24
#16

Спасибо за инструмент! А цель - банально сбор базы запросов Яндекса, а дальше уже область применения широкая, на сколько фантазии хватит:)

Stripe
На сайте с 05.09.2006
Offline
222
#17

Да не за что, пользуйтесь :)

EVB
На сайте с 09.10.2009
Offline
20
EVB
#18

Привет. Установил программу на сервер, залил базу. Поменял в файлах имя пользователя базы, пароль, и файл к прокси. Но чего-то не работает. После запуска файла пустой экран. В базу ничего не добавляется. Плиз хелп. Спасибо.

В строчке 66 отсутствовали кавычки... ))

Еще одна ошибка Fatal error: Call to undefined function iconv() in....

Юзаю FirstVDS

Дайте вРепу :-)
Y
На сайте с 25.10.2007
Offline
198
#19

блин, что то не понятна практическая ценность этого парсера, не могли бы пояснить?

SplashS
На сайте с 18.01.2010
Offline
4
#20

Для быстроты работы я бы еще построил индексы:

ALTER TABLE `yandexefir`ADD KEY (`key`(50));

А то далеко не уедет скрипт. На 100000 где-то уже тормоить безбожно будет.

SplashS добавил 27.01.2010 в 23:13

EVB:
Еще одна ошибка Fatal error: Call to undefined function iconv() in....

Нужно установить расширение для PHP mod_iconv.

Обратитесь в саппорт хостера или покрутите панель управления - может быть модули можно оттуда включить.

Ну и еще вариант:

Изменить строку

$pagecontent = iconv("UTF-8", "CP1251", $out);

Вот так:

$pagecontent = $out;

Тогда в базу будем писать сразу в юникоде.

Ну и базу надо создать в юникоде и писать туда так же.

В sql файле надо писать

CREATE TABLE IF NOT EXISTS `yandexefir` (
`id` int(255) NOT NULL auto_increment,
`key` text NOT NULL,
`page` int(255) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf-8;

В bd.php:

mysql_query("Set names utf-8");
Компьютер ДелаетИзВсехНасДураков (с)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий