Парсинг яндекс

S1
На сайте с 28.03.2010
Offline
72
782

Всем доброго вечера. Возникла такая проблема при парсинге страницы яндекса.

При обращении к странице идет переадресация на страницу с каптчей. Но вот после распознавания капчи и отправке формы, выдает ошибку 404. Подскажите, что может быть? Может кто-то сталкивался с подобной проблемой? Все данные которые нужны я отправлю. Но вроде там все просто, отправляется форма с 3мя параметрами.

ICQ: 3533966 | Skype: spider13software | E-Mail: admin@spider13.net | Telegram: spider13software| Разработчик Node.js (https://spider13.net/) | Заметки онлайн (https://notes.spider13.net/)
iqmaker
На сайте с 17.04.2012
Offline
309
#1

Яндекс давно не парсил, но скорее всего смотрите какой передаете user-agent, поддерживает ли ваш клиент cookies и т.п. заголовки http должны быть аналогичными современным браузерам, т.е. сделайте запрос из браузера посмотрите заголовки, создайте аналогичные в скрипте. Ну и желательно чтобы клиент поддерживал js или притворялся, что поддерживает.

S1
На сайте с 28.03.2010
Offline
72
#2

Например вот такие заголовки отправляет на сервер мой скрипт.

http://yandex.ua/checkcaptcha?key=23eWppXQ1aPyzZUFwDawCmzfoJRMtbyx_0%2F1411736097%2F6f3e8564b5f29796c9c02a8461a799dc_4eb198e7bab1efbd54309305324ae339&retpath=http%3A%2F%2Fyandex.ua%2Fyandsearch%3Ftext%3Dspider13%26amp%3Blr%3D51%26amp%3Bncrnd%3D3326_be20cf12e2cd1a1bab8cd898a1f12a6e&rep=%D1%8F%D0%BA%D1%83%D1%82%D1%81%D0%BA
----- HEADER -----
GET /checkcaptcha?key=23eWppXQ1aPyzZUFwDawCmzfoJRMtbyx_0%2F1411736097%2F6f3e8564b5f29796c9c02a8461a799dc_4eb198e7bab1efbd54309305324ae339&retpath=http%3A%2F%2Fyandex.ua%2Fyandsearch%3Ftext%3Dspider13%26amp%3Blr%3D51%26amp%3Bncrnd%3D3326_be20cf12e2cd1a1bab8cd898a1f12a6e&rep=%D1%8F%D0%BA%D1%83%D1%82%D1%81%D0%BA HTTP/1.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36
Connection: keep-alive
Accept-Encoding: gzip, deflate
Host: yandex.ua
Cookie: Session_id=noauth:1411736096; spravka=dD0xMzgwMjAwMDk3O---------------------------------------------------------wNTE3NjA2MDE7aD1lM2IwZTgxNGFjMDc5ZmI1M2I3NDk5NmUxMDJkNWM0Zg==; yandexuid=9340807651411736096

Разницы между браузером и скриптом я не вижу. Вот для примера google chrome заголовки

GET /yandsearch?text=spider13%209 HTTP/1.1
Host: yandex.ua
Connection: keep-alive
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36
Accept-Encoding: gzip,deflate,sdch
Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
Cookie: z=s:l:0x41961f8:1411666220577; Session_id=noauth:1411666205; yabs-frequency=/4/0000000000000000/TW-lS00R8G00/; spravka=dD0xNDExNjg0ODIzO2k9MTA5Ljg2LjM3LjE0OTt1PTE0MTE2ODQ4MjM4MDUzMjM0Mzk7aD0zMWIwNzg3MjEwZWJlY2Y2MDIwYjNhNTM1NmNiZTM1MQ==; yandexuid=3745315621411685157; ys=wprid.1411688015014413-1826061385226353347814696-9-026; _ym_visorc_731962=b

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий