Parse Google

MM
На сайте с 21.10.2011
Offline
3
2390

Всем здрасте, помогите решить незадачу одну.

Пишу парсер выдачи результатов поиска гугла, использую antigate.com для распознавания капч. Для распознания нужно сохранить капчу и после отправить на антигейт. Вроде и не сложно, а вот капчу гугла словить не могу, если перейти по ссылке за капчей, каждый раз новая капча, хотя ссылка та же. Все это делаю с куками.

Использую php + curl.

Есть какие идеи??

M
На сайте с 12.11.2005
Offline
122
#1

Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.

MM
На сайте с 21.10.2011
Offline
3
#2
modelist:
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.

Вот что получаем при редиректе на капчу:

<div style="max-width:400px;">

<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>

Чтобы продолжить, введите указанные ниже символы:<br><br>

<img src="/sorry/image?id=7665202828380425241&amp;hl=ru" border="1" alt="Включите отображение изображений"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?aq=1&amp;oq=sape+xml&amp;sourceid=chrome&amp;ie=UTF-8&amp;q=sape+xml-rpc"><input type="hidden" name="id" value="7665202828380425241"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Отправить" style="font-size:18px; padding:4px 0;"><br><br><br></form>

<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">

<div style="font-size:13px;">

<b>Об этой странице</b><br><br>Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы, а не робот. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Почему это могло произойти?</a><br><br>

<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">

Эта страница отображается в тех случаях, когда автоматическими системами Google регистрируются исходящие из вашей сети запросы, которые нарушают <a href="http://www.google.ru/accounts/TOS">Условия использования</a>. Страница перестанет отображаться после того, как эти запросы прекратятся. До этого момента для использования служб Google необходимо проходить проверку по слову.<br><br>Источником запросов может служить вредоносное ПО, подключаемые модули браузера или скрипт, настроенный на автоматических рассылку запросов. Если вы используете общий доступ в Интернет, проблема может быть с компьютером с таким же IP-адресом, как у вас. Обратитесь к своему системному администратору. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Подробнее...</a><br><br>Проверка по слову может также появляться, если вы вводите сложные запросы, обычно распространяемые автоматизированными системами, или же вводите запросы очень часто.

</div><br>

IP-адрес: 95.132.45.250<br>Время: 2012-01-23T06:43:41Z<br>URL: http://www.google.com.ua/search?aq=1&amp;oq=sape+xml&amp;sourceid=chrome&amp;ie=UTF-8&amp;q=sape+xml-rpc<br>

</div></div>

Капча не грузится, тк адрес относительный google.com.

---------- Добавлено 23.01.2012 в 12:34 ----------

Все решено.

MM
На сайте с 21.10.2011
Offline
3
#3

Поспешил я немного.

Капчу я то сохранил, а вот какую не ясно.

Одна и та же ссылка каждый раз выдает новую капчу.

Когда идет редирект на капчу, гугл выдает первую капчу, после парсинга id, делаю запрос по ссылке за капчей и получаю уже новую капчу.

---------- Добавлено 23.01.2012 в 17:36 ----------

modelist:
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.

А каким образом я могу сохранить капчу с первого раза в формате jpg, не ходя за ней?

22Striker22
На сайте с 13.04.2008
Offline
143
#4

По своему опыту скажу, что при промышленных масштабах парсинга гугла разгадывать капчу выходит весьма дорого. Лучше прокси.

TrueMediaPartner.com (https://truemediapartner.com/signup.php?id=4884). Download ПП + CPA. Более 10.000 офферов и никакого холда. Выплаты в баксах!
M
На сайте с 12.11.2005
Offline
122
#5

Как идея: получать страницы через локальный прокси, например, на php, сохраняя у себя, скажем, последнюю запрошенную страницу полностью.

Как только видим, что запросили каптчу, то берем картинку из кэша страницы.

Отпишитесь о результатах, интересно:)

MM
На сайте с 21.10.2011
Offline
3
#6

Парсем с проксями уже писал и юзал, тут можно использовать, но будет не очень удобно в дальнейшем, потому хочу проходить капчу.)

И локальный тоже не могу использовать.)

Вот думаю использовать imagegrabwindow(). Пока еще правда не разобрался.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий