Парсер Яндекс Вордстата

E
На сайте с 04.01.2009
Offline
30
2838

У кого есть опыт работы в написании парсера Яндекс Вордстата? В последнее время Яндекс выдает капчу вместо желаемой странички с ключевиками. Парсер обращается 1 раз в сутки к Яндексу загружает всего одну страничку и все равно получает капчу. Как обойти капчу? Прокси тоже использовал, результат один и тот же!

Сразу скажу: программы не предлагать, сервис анти-капчи тоже. Все должно работать на php под крон.

Как я делаю формирую адрес страничка вида: http://wordstat.yandex.ru/?cmd=words&page=1&text=ключевик. Загружаю страничку через curl.


$kw = 'диван';
$url = 'http://wordstat.yandex.ru/?cmd=words&page=1&text='.urlencode($kw);

$ua_list = array(
'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2',
'Mozilla/5.0 (Windows; U; Windows NT 6.0; ru; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7'
);

function get_content($url) {
$ua = $ua_array[rand(0, (count($ua_array)-1))];

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, $ua);
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3", "Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7"));
curl_setopt($ch, CURLOPT_ENCODING, "gzip, deflate");
curl_setopt($ch, CURLOPT_TIMEOUT, 15);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$result = curl_exec($ch);
curl_close( $ch );
return $result;
}

$content = get_content($url);

if (strstr($content, 'http://captcha.yandex.net')) {
echo 'Show captcha';
}

Wmgood.Ru - Мониторинг обменников (http://wmgood.ru) Zameshi.Ru - Смешные приколы со всего интернета (http://zasmeshi.ru)
SR
На сайте с 15.06.2006
Offline
61
SqR
#1

Забирайте и отдавайте Куки...

Увести чужую жену просто, трудно вернуть ее обратно.
TS
На сайте с 26.06.2008
Offline
36
#2

уже где то обсуждалось. куки надо ему подсовывать.

мой парсер тож поламался. вот как раз седня узнал про куки. буду пробовать

CenaMashin.ru (http://cenamashin.ru) - Сколько стоит твоя машина?
E
На сайте с 04.01.2009
Offline
30
#3

Ага, согласен на счет куки. Тоже после уже прочитал на этом форуме про куки. Только вот прежде, чем получить куки, надо первую капчу как-то распознать.

tuz
На сайте с 31.01.2009
Offline
58
tuz
#4

по поводу капчи http://antigate.com/

если в вашем софте есть апи то сервис будет распознавать капчу )

L3
На сайте с 06.10.2009
Offline
2
#5

Я тут кое че покопал. Там есть особый алгоритм, можно капчу обходить. Время будет - напишу ;)

E
На сайте с 04.01.2009
Offline
30
#6
Luck3r:
Я тут кое че покопал. Там есть особый алгоритм, можно капчу обходить. Время будет - напишу ;)

Слушай, очень надо! Поделись инфой, хотя бы частично.

Не могу даже куку сохранить:

curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

IN
На сайте с 23.01.2010
Offline
67
#7

Никакого особого алгоритма нет. Загрузите wordstat в браузере, предварительно почистив куки - увидите капчу, нажмите F5 и вуаля. Снифером легко проследить какая кука нужна и откуда она берется.

[Удален]
#8

it.netov, пасибо! Хоть кто-то прямо объяснил.

L3
На сайте с 06.10.2009
Offline
2
#9

Там этот скрипт подключается и тут идет проверка.

P
На сайте с 13.07.2007
Offline
48
#10

победил... интересно через сколько времени закрутят гайки?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий