Pasre Google

MM
На сайте с 21.10.2011
Offline
3
554

Всем здрасте, помогите решить незадачу одну.

Пишу парсер выдачи результатов поиска гугла, использую antigate.com для распознавания капч. Для распознания нужно сохранить капчу и после отправить на антигейт. Вроде и не сложно, а вот капчу гугла словить не могу, если перейти по ссылке за капчей, каждый раз новая капча, хотя ссылка та же. Все это делаю с куками.

Использую php + curl.

Есть какие идеи??

pssoft
На сайте с 12.04.2010
Offline
37
#1

Непонятно как такое может быть.

1. Слил html код

2. Спарсил урл капчика

3. Слил капчик

4. Отправил распознал

5. Запостил

Не должно быть никаких проблем, что то недосмотрели уважаемый.

Интернет магазин активированных по смс аккаунтов (http://www.accs4sale.ru/) Вконтакте / Одноклассники / Loveplanet / Mamba / Gmail / Yandex и пр.
MM
На сайте с 21.10.2011
Offline
3
#2
pssoft:
Непонятно как такое может быть.
1. Слил html код
2. Спарсил урл капчика
3. Слил капчик
4. Отправил распознал
5. Запостил
Не должно быть никаких проблем, что то недосмотрели уважаемый.

Вот что получаем при редиректе на капчу:

<div style="max-width:400px;">

<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>

Чтобы продолжить, введите указанные ниже символы:<br><br>

<img src="/sorry/image?id=7665202828380425241&amp;hl=ru" border="1" alt="Включите отображение изображений"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?aq=1&amp;oq=sape+xml&amp;sourceid=chrome&amp;ie=UTF-8&amp;q=sape+xml-rpc"><input type="hidden" name="id" value="7665202828380425241"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Отправить" style="font-size:18px; padding:4px 0;"><br><br><br></form>

<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">

<div style="font-size:13px;">

<b>Об этой странице</b><br><br>Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы, а не робот. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Почему это могло произойти?</a><br><br>

<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">

Эта страница отображается в тех случаях, когда автоматическими системами Google регистрируются исходящие из вашей сети запросы, которые нарушают <a href="http://www.google.ru/accounts/TOS">Условия использования</a>. Страница перестанет отображаться после того, как эти запросы прекратятся. До этого момента для использования служб Google необходимо проходить проверку по слову.<br><br>Источником запросов может служить вредоносное ПО, подключаемые модули браузера или скрипт, настроенный на автоматических рассылку запросов. Если вы используете общий доступ в Интернет, проблема может быть с компьютером с таким же IP-адресом, как у вас. Обратитесь к своему системному администратору. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Подробнее...</a><br><br>Проверка по слову может также появляться, если вы вводите сложные запросы, обычно распространяемые автоматизированными системами, или же вводите запросы очень часто.

</div><br>

IP-адрес: 95.132.45.250<br>Время: 2012-01-23T06:43:41Z<br>URL: http://www.google.com.ua/search?aq=1&amp;oq=sape+xml&amp;sourceid=chrome&amp;ie=UTF-8&amp;q=sape+xml-rpc<br>

</div></div>

Спарсил <img src="">, добавил вначале goole.com, иду за капчей, а там пусто. Но если взять слепленную ссылку и ввести вручную, есть капча и при каждом запросе новая, хотя id тот же.

В основном когда скрипт идет за капчей, получает пустую страницу, хотя бывают исключения. Вот и не могу понять в чем дело.

---------- Добавлено 23.01.2012 в 12:34 ----------

Все решено.

MM
На сайте с 21.10.2011
Offline
3
#3

Поспешил я немного.

Капчу я то сохранил, а вот какую не ясно.

Одна и та же ссылка каждый раз выдает новую капчу.

Когда идет редирект на капчу, гугл выдает первую капчу, после парсинга id, делаю запрос по ссылке за капчей и получаю уже новую капчу.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий