- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем здрасте, помогите решить незадачу одну.
Пишу парсер выдачи результатов поиска гугла, использую antigate.com для распознавания капч. Для распознания нужно сохранить капчу и после отправить на антигейт. Вроде и не сложно, а вот капчу гугла словить не могу, если перейти по ссылке за капчей, каждый раз новая капча, хотя ссылка та же. Все это делаю с куками.
Использую php + curl.
Есть какие идеи??
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
Вот что получаем при редиректе на капчу:
<div style="max-width:400px;">
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
Чтобы продолжить, введите указанные ниже символы:<br><br>
<img src="/sorry/image?id=7665202828380425241&hl=ru" border="1" alt="Включите отображение изображений"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?aq=1&oq=sape+xml&sourceid=chrome&ie=UTF-8&q=sape+xml-rpc"><input type="hidden" name="id" value="7665202828380425241"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Отправить" style="font-size:18px; padding:4px 0;"><br><br><br></form>
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
<div style="font-size:13px;">
<b>Об этой странице</b><br><br>Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы, а не робот. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Почему это могло произойти?</a><br><br>
<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
Эта страница отображается в тех случаях, когда автоматическими системами Google регистрируются исходящие из вашей сети запросы, которые нарушают <a href="http://www.google.ru/accounts/TOS">Условия использования</a>. Страница перестанет отображаться после того, как эти запросы прекратятся. До этого момента для использования служб Google необходимо проходить проверку по слову.<br><br>Источником запросов может служить вредоносное ПО, подключаемые модули браузера или скрипт, настроенный на автоматических рассылку запросов. Если вы используете общий доступ в Интернет, проблема может быть с компьютером с таким же IP-адресом, как у вас. Обратитесь к своему системному администратору. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Подробнее...</a><br><br>Проверка по слову может также появляться, если вы вводите сложные запросы, обычно распространяемые автоматизированными системами, или же вводите запросы очень часто.
</div><br>
IP-адрес: 95.132.45.250<br>Время: 2012-01-23T06:43:41Z<br>URL: http://www.google.com.ua/search?aq=1&oq=sape+xml&sourceid=chrome&ie=UTF-8&q=sape+xml-rpc<br>
</div></div>
Капча не грузится, тк адрес относительный google.com.
---------- Добавлено 23.01.2012 в 12:34 ----------
Все решено.
Поспешил я немного.
Капчу я то сохранил, а вот какую не ясно.
Одна и та же ссылка каждый раз выдает новую капчу.
Когда идет редирект на капчу, гугл выдает первую капчу, после парсинга id, делаю запрос по ссылке за капчей и получаю уже новую капчу.
---------- Добавлено 23.01.2012 в 17:36 ----------
Предполагаю, что надо брать каптчу сразу как только её дают, а не ходить за ней по ссылке второй раз.
А каким образом я могу сохранить капчу с первого раза в формате jpg, не ходя за ней?
По своему опыту скажу, что при промышленных масштабах парсинга гугла разгадывать капчу выходит весьма дорого. Лучше прокси.
Как идея: получать страницы через локальный прокси, например, на php, сохраняя у себя, скажем, последнюю запрошенную страницу полностью.
Как только видим, что запросили каптчу, то берем картинку из кэша страницы.
Отпишитесь о результатах, интересно:)
Парсем с проксями уже писал и юзал, тут можно использовать, но будет не очень удобно в дальнейшем, потому хочу проходить капчу.)
И локальный тоже не могу использовать.)
Вот думаю использовать imagegrabwindow(). Пока еще правда не разобрался.