Парсинг google - изменился урл?

12
DmitryShustov
На сайте с 27.11.2004
Offline
259
705

По ссылке http://www.google.ru/search?q=запрос&hl=ru&lr=&newwindow=1&start=10&sa=N отдается бред..

Откуда нынче модно парсить? АПИ или есть другие варианты?

[Удален]
#1
DmitryShustov:
отдается бред..

в браузере открылось все нормально

DmitryShustov
На сайте с 27.11.2004
Offline
259
#2

да, оно открывается :) дело в том, что бредовыдачу отдает... А новая выдача (через морду гугла если искать) вся в js закрыта.

Jekyll
На сайте с 04.05.2009
Offline
136
#3
DmitryShustov:
А новая выдача (через морду гугла если искать) вся в js закрыта.

Что-то я разницу не заметил, если сделать запрос с главной и перейти на вторую страниц и если пройти по вашей ссылке. Да и в коде разницы вроде нет :)

DmitryShustov
На сайте с 27.11.2004
Offline
259
#4

У меня гугл отдает урл поиска из браузера http://www.google.ru/#hl=ru&source=hp&q=запрос&aq=f&aqi=g10&aql=&oq=&gs_rfai=&fp=2853ca07a1321ea7

с другой страницей результатов поиска, непригодной для парсинга, а по старой ссылке совсем другие результаты, неверные мягко говоря.

[Удален]
#5

DmitryShustov, а вы жс выключите в браузере)

DmitryShustov
На сайте с 27.11.2004
Offline
259
#6

bearman, ххы :) спасиб :)

итого: случилось самое худшее, эта гадина таки забанила ip мой.. пойду курить прокси

[Удален]
#7

DmitryShustov, да не за что :)

R5
На сайте с 22.03.2010
Offline
24
#8

DmitryShustov, совет на будущее - когда вы пишите паттерны для парсинга чего-то, составляйте их на основе исходника вытянутого тем же методом, который используется в вашей парселке/граббилки. В вашем случае это скорее-всего PHP с cURLом, вот просто курлом и вытягивайте, разумеется, в курле нужно разрешить 2-3 редиректа (гугле может редирекнуть на более подходящий для вашей локации домен).

Когда вы тяните браузером, а потом по этому исходнику пишите регу, в большенстве случаев рега будет неправильная, так как браузеры имеют такую привычку валидировать налету исходник, и показывает вам уже изменённый хтмл код )

[Удален]
#9
RFC2505:
и показывает вам уже изменённый хтмл код )

что это за браузер интересно? "просмотр исходного кода" вроде везде одинаково пашет - тупо взозвращает исходник

L
На сайте с 12.11.2009
Offline
79
#10

Опера сразу возвращает, а ff, к примеру, при просмотре исходного кода снова отправляет запрос (дура).

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий