Парсинг выдачи яндекса на php или python

С
На сайте с 27.11.2009
Offline
4
1391

Добрый день, уважаемые коллеги. Даже доброй ночи.

Я последний раз занимался парсингом выдачи яндекса довольно давно, тогда все было просто - забираем через file_get_contents страницы, потом появляется капча, уходим в таймаут (или переключаемся на другой ip), а потом снова можно начинать.

Сейчас ситуация похоже круто изменилась. Я ставлю user-agent нормальный - не помогает. Дает капчу уже 2 часа. При этом с нормальных браузеров сам захожу.

Как по-человечески эмулировать запрос так, чтобы не было изначальной капчи? Нужно ли подставлять куки?

Что жизненно важно передать через куки?

Спасибо.

Василий | подборка по снежинску (http://seomodule.ru/metki/snejinsk)
Jekyll
На сайте с 04.05.2009
Offline
136
#1
Сеомодуль:
Как по-человечески эмулировать запрос так, чтобы не было изначальной капчи? Нужно ли подставлять куки?

Реферрер хотя бы ещё передайте. Куки, которые получаете, записывайте в файлы и отсылайте при следующем запросе. Пореалистичней будет :)

BredoGen.
На сайте с 19.10.2009
Offline
98
#2

Копайте в сторону вот этого:


<iframe frameBorder="0" src="//kiks.yandex.ru/su/" style="width:40px;height:40px;overflow:hidden;position:absolute;left:-40px;top:0;opacity:0"></iframe>
С
На сайте с 27.11.2009
Offline
4
#3
BredoGen.:
Копайте в сторону вот этого:

<iframe frameBorder="0" src="//kiks.yandex.ru/su/" style="width:40px;height:40px;overflow:hidden;position:absolute;left:-40px;top:0;opacity:0"></iframe>

Я написал Вам вопрос в личку. Не совсем понятно, как в данном случае эмулировать браузер, по iframe открывается *дополнительная* страница, и, скорее всего, начинает она загружаться в конце. А мне капчу отдают СРАЗУ.

Может дело в каких-то особых куках, которые я должен где-то получить, чтобы меня потом "пустили" сделать обычное обращение?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий