- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем здрасте, помогите решить незадачу одну.
Пишу парсер выдачи результатов поиска гугла, использую antigate.com для распознавания капч. Для распознания нужно сохранить капчу и после отправить на антигейт. Вроде и не сложно, а вот капчу гугла словить не могу, если перейти по ссылке за капчей, каждый раз новая капча, хотя ссылка та же. Все это делаю с куками.
Использую php + curl.
Есть какие идеи??
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
Вот что получаем при редиректе на капчу:
<div style="max-width:400px;">
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
Чтобы продолжить, введите указанные ниже символы:<br><br>
<img src="/sorry/image?id=7665202828380425241&hl=ru" border="1" alt="Включите отображение изображений"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?aq=1&oq=sape+xml&sourceid=chrome&ie=UTF-8&q=sape+xml-rpc"><input type="hidden" name="id" value="7665202828380425241"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Отправить" style="font-size:18px; padding:4px 0;"><br><br><br></form>
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
<div style="font-size:13px;">
<b>Об этой странице</b><br><br>Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы, а не робот. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Почему это могло произойти?</a><br><br>
<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
Эта страница отображается в тех случаях, когда автоматическими системами Google регистрируются исходящие из вашей сети запросы, которые нарушают <a href="http://www.google.ru/accounts/TOS">Условия использования</a>. Страница перестанет отображаться после того, как эти запросы прекратятся. До этого момента для использования служб Google необходимо проходить проверку по слову.<br><br>Источником запросов может служить вредоносное ПО, подключаемые модули браузера или скрипт, настроенный на автоматических рассылку запросов. Если вы используете общий доступ в Интернет, проблема может быть с компьютером с таким же IP-адресом, как у вас. Обратитесь к своему системному администратору. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Подробнее...</a><br><br>Проверка по слову может также появляться, если вы вводите сложные запросы, обычно распространяемые автоматизированными системами, или же вводите запросы очень часто.
</div><br>
IP-адрес: 95.132.45.250<br>Время: 2012-01-23T06:43:41Z<br>URL: http://www.google.com.ua/search?aq=1&oq=sape+xml&sourceid=chrome&ie=UTF-8&q=sape+xml-rpc<br>
</div></div>
Капча не грузится, тк адрес относительный google.com.
---------- Добавлено 23.01.2012 в 12:34 ----------
Все решено.
Поспешил я немного.
Капчу я то сохранил, а вот какую не ясно.
Одна и та же ссылка каждый раз выдает новую капчу.
Когда идет редирект на капчу, гугл выдает первую капчу, после парсинга id, делаю запрос по ссылке за капчей и получаю уже новую капчу.
---------- Добавлено 23.01.2012 в 17:36 ----------
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
А каким образом я могу сохранить капчу с первого раза в формате jpg, не ходя за ней?
По своему опыту скажу, что при промышленных масштабах парсинга гугла разгадывать капчу выходит весьма дорого. Лучше прокси.
Как идея: получать страницы через локальный прокси, например, на php, сохраняя у себя, скажем, последнюю запрошенную страницу полностью.
Как только видим, что запросили каптчу, то берем картинку из кэша страницы.
Отпишитесь о результатах, интересно:)
Парсем с проксями уже писал и юзал, тут можно использовать, но будет не очень удобно в дальнейшем, потому хочу проходить капчу.)
И локальный тоже не могу использовать.)
Вот думаю использовать imagegrabwindow(). Пока еще правда не разобрался.