Парсер Wordstat, как обойти каптчу

splish
На сайте с 25.01.2011
Offline
114
948

<?PHP


$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, "http://wordstat.yandex.ru/");
curl_setopt($ch, CURLOPT_HEADER,1);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt ($ch, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt ($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
curl_setopt ($ch, CURLOPT_VERBOSE,1);
curl_setopt ($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");
curl_setopt ($ch, CURLOPT_COOKIEFILE, "my_cookies.txt");
curl_setopt ($ch, CURLOPT_COOKIE, '4fa04a9601162a84.Zs5VuNJCojgHFmNlXWtYBsDHBGyTY-XRD4CUK0yFHugnvuLiEuFcfLU9hbFCxBJbHItrbkTcmX5rjQh1r054Pt1w2ZMCJVqSp7u9xVKXImmrJ-BzTzesFW3gmWNuiDDV');

$text = curl_exec($ch);

curl_close($ch);
echo $text;

?>

Подскажите пожалуйста что в коде неправильно.

При обращении к самому сервису он требует ввести каптчу 1 раз для определения региона, в дальнейшем каптча не нужна.

Но скрипт каптчу не обходит и данные получить невозможно.

И вообще, после обновления вордстата возможно ли полноценно парсить запросы?

R
На сайте с 13.04.2009
Offline
159
#1
splish
На сайте с 25.01.2011
Offline
114
#2

Нужно именно на php.

И не совсем понял как kiks.yandex.ru проверяет реален ли пользователь.

[Удален]
#3

Я захожу через браузер на вордстат, прохожу капчу, потом вытягиваю кукисы и юзер-агент из браузера, забиваю в php и - вуаля! - всё работает.

Или вы что-то другое имели в виду?

splish
На сайте с 25.01.2011
Offline
114
#4
sasha_123:
Я захожу через браузер на вордстат, прохожу капчу, потом вытягиваю кукисы и юзер-агент из браузера, забиваю в php и - вуаля! - всё работает.

Или вы что-то другое имели в виду?

Код который я написал как раз таки и использует кукисы и юзер агент, но всё равно не работает.

Не могли бы вы показать кусок кода с curl_setopt?

UPD: Всем спасибо, капчу обошёл.

U5
На сайте с 03.06.2010
Offline
24
#5

А если вот так?

<?PHP

$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, "http://wordstat.yandex.ru/");
curl_setopt($ch, CURLOPT_HEADER,1);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt ($ch, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt ($ch, CURLOPT_USERAGENT, $_SERVER***91;'HTTP_USER_AGENT'***93;);
curl_setopt ($ch, CURLOPT_VERBOSE,1);
curl_setopt ($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");
curl_setopt ($ch, CURLOPT_COOKIEFILE, "my_cookies.txt");
curl_setopt ($ch, CURLOPT_COOKIE, '4fa04a9601162a84.Zs5VuNJCojgHFmNlXWtYBsDHBGyTY-XRD4CUK0yFHugnvuLiEuFcfLU9hbFCxBJbHItrbkTcmX5rjQh1r054Pt1w2ZMCJVqSp7u9xVKXImmrJ-BzTzesFW3gmWNuiDDV');

$text = curl_exec($ch);
curl_setopt ($ch, CURLOPT_URL, "http://wordstat.yandex.ru/");
$text = curl_exec($ch);

curl_close($ch);
echo $text;

?>

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий