Парсинг рамблера

DmitryShustov
На сайте с 27.11.2004
Offline
259
718

Столкнулся вот с какой фигней..

Делаю подряд (с рандомными задержками) около 10 идентичных запросов раме вот по такому урлу:

http://nova.rambler.ru/srch?query=".urlencode($word)."&page=".$p

В половине случаев отдается правильная выдача, а во второй половине ахинея включающая в себя линкопомойки, тексты продажных ссылок и даже такие вот интересные граберы - autovista.ru/spy/index.php?r=25

Кто знает как лечить, поможите плз. В голову ничего не лезет кроме програмной проверки правильности выдачи, но это нагрузка для больших баз кеев большая очень и не знаю насколько хорошее это решение.

[Удален]
#1
DmitryShustov:
Столкнулся вот с какой фигней..

Делаю подряд (с рандомными задержками) около 10 идентичных запросов раме вот по такому урлу:
http://nova.rambler.ru/srch?query=".urlencode($word)."&page=".$p


В половине случаев отдается правильная выдача, а во второй половине ахинея включающая в себя линкопомойки, тексты продажных ссылок и даже такие вот интересные граберы - autovista.ru/spy/index.php?r=25

Кто знает как лечить, поможите плз. В голову ничего не лезет кроме програмной проверки правильности выдачи, но это нагрузка для больших баз кеев большая очень и не знаю насколько хорошее это решение.

useragent и тп заголовки шлешь?

DmitryShustov
На сайте с 27.11.2004
Offline
259
#2

useragent и все. Думаете в этом трабл? чего ему не хватать то может еще? куки - врядли, ip - думаю пофигу ему, рефер - не думал, но тоже сомневаюсь что нужно..

яндекс и гугля этим же парсером отлично отдают все.

L
На сайте с 19.01.2007
Offline
17
#3

после входа на аккаунт не пробовал делать запросы?

I
На сайте с 21.02.2008
Offline
117
#4

proxy используете? Возможно защищаются они дезинформацией от таких наплывов запросов с одного ip. Хотя не уверен, но быть может.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий