Нужен парсер Гугля

12
IL
На сайте с 20.04.2007
Offline
435
#11
6666:
угу... еще свой прокси-сервер купить для надежности.

Свой прокси (если будет востребован) - вряд ли один справится.. а насчёт обхода бана по IP (кэшированием, использованием прокси.. или другими средствами) - время покажет.. Если, конечно, скрипт будет использоваться чаще чем ....

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
arkadiy_a
На сайте с 11.06.2008
Offline
82
#12
6666:
Да ну нафиг. Несколько сотен запросов в сутки Гуглю как танку щелбан. Не заметит.

Per сутки это некорректно ибо ниочем.

Лимиты у гугля (парсер когда-то писал своими кривыми руками а потому знаю) были кол-во запросов per минута с отягчающими обстоятельствами всяко-разными.

При том что лимиты на глазах постоянно улучшались и становились все умней.

Если сможешь размазать нагрузку на сутки - то норм, небольшой всплеск посещалки людьми/ботами и простой вариант увы не взлетит.

6666
На сайте с 10.01.2005
Offline
505
#13
arkadiy_a:
кол-во запросов per минута

Ну так и скажи приблизительный лимит. 10 запросов\минуту - много?

Каждое мое сообщение проверила и одобрила Елена Летучая. (c) Для меня очень важно все что Вы говорите! (http://surrealism.ru/123.mp3) .
arkadiy_a
На сайте с 11.06.2008
Offline
82
#14
6666:
Ну так и скажи приблизительный лимит. 10 запросов\минуту - много?

Не могу точно сказать. Т.к. лимитов их несколько, смотрится не только rate. Подозрительная активность в двух словах. С одной стороны ты дальше первой страницы не идешь что как бы плюс а с другой стороны никогда по ссылкам не переходишь что подозрительно выглядит а потому я хз. Куки не используешь что в минус.

Может и прокатит, надо смотреть.

6666
На сайте с 10.01.2005
Offline
505
#15

Короче, может кто-нибудь подправить первый код, что бы не было надписи? А потом посмотрим, что и как и куда :)

$word = '6666';
$url = "http://www.google.ru/search?client=opera&rls=ru&q=".urlencode($word);
$str = file_get_contents( $url );
preg_match( '#<div id="?resultStats"?>(.+?)</div>#', $str, $out );

echo $out[1];



---------- Добавлено 28.02.2013 в 14:23 ----------

пс: похожий парсер Яндекса висел лет пять, все дело в количестве и целях. В данном случае маловероятно подозрение на вредоносный код. Ну посмотрели сколько сайтов и чего?

arkadiy_a
На сайте с 11.06.2008
Offline
82
#16
6666:
Короче, может кто-нибудь подправить первый код, что бы не было надписи? А потом посмотрим, что и как и куда :)чего?
$word = '6666';
$url = "http://www.google.com/search?client=opera&rls=en&q=".urlencode($word);
$str = file_get_contents( $url );
preg_match( '#<div id="?resultStats"?>About (.+?)results</div>#', $str, $out );
echo $out[1];

С регэкспами плохо дружу, но вроде работает.

p.s.

Если в integer формат надо преобразовать (для каких-то вычислений) а не в строковый как сейчас то еще надо разделитель-запятые порезать.

Добавить в конце перед echo строку:

$out[1]=preg_replace("/[^0-9]/", "", $out[1]);
6666
На сайте с 10.01.2005
Offline
505
#17

arkadiy_a, не, ругается: syntax error, unexpected '*' in /sr

arkadiy_a
На сайте с 11.06.2008
Offline
82
#18

Форумный тег php code глючил чето, вот попробуй еще раз:

$word = '6666';
$url = "http://www.google.com/search?client=opera&rls=en&q=".urlencode($word);
$str = file_get_contents( $url );
preg_match( '#<div id="?resultStats"?>About (.+?)results</div>#', $str, $out );
$out[1]=preg_replace("/[^0-9]/", "", $out[1]);
echo $out[1];
6666
На сайте с 10.01.2005
Offline
505
#19

Во. Рулез. Спасибо.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий