Парсинг Яши

12
praide
На сайте с 20.07.2007
Offline
236
#11
В десятке:
Вопрос: как вы решили проблему парсинга Яши без установки таймаутов и смены ip?

Нашел хостинг, где на одном айпи море сайтов. Поставил парсер и радуюсь. Капчи не встречал ни разу.

"Наши летатели идут к смерти верным и скорым шагом." Антуан де Сент-Экзюпери
SJ
На сайте с 16.03.2008
Offline
78
#12
В десятке:
отличается на мейле выдача =( увы...

А можно пример запроса?

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
В десятке
На сайте с 17.08.2007
Offline
135
#13
crosone:
Курлами через GET
Там есть функция.

if($info['http_code']==200){} - успешное соединение
если статус равен 0 то IP не работает. Ипшники вводятся в массив, в итоге в скрипте они используются случайным образом. При успешном выполнении желательно использовать задержку sleep();

Так сейчас и сделано, только ещё юзер-агенты меняются.

При таком использовании попадаю на капчу.

В десятке добавил 25.11.2008 в 16:58

sokol_jack:
А можно пример запроса?

В день апа Яши выдача отличается.

crosone
На сайте с 28.03.2008
Offline
73
#14
praide:
Нашел хостинг, где на одном айпи море сайтов. Поставил парсер и радуюсь. Капчи не встречал ни разу.

А какой таймаут стоит ? какое количество запросов в сутки парсите?

٩(๏̯͡๏)۶
praide
На сайте с 20.07.2007
Offline
236
#15
crosone:
А какой таймаут стоит ?

На ответ Яши? Прогер вроде 30 сек ставил.

crosone:
какое количество запросов в сутки парсите?

Около 30 сайтов, в среднем по 20 ключей, позиции (на каком этапе работа) от ТОП10 до 200, дальше вроде не лазит парсилка. Считайте приблизительно. Я не в курсе (((. Просто работает ежедневно. К стати и по гуглу ру тоже.

crosone
На сайте с 28.03.2008
Offline
73
#16
В десятке:
Так сейчас и сделано, только ещё юзер-агенты меняются.
При таком использовании попадаю на капчу.

А кука у вас хранится ? С ней проблем нет?

crosone добавил 25.11.2008 в 23:03

или кинь в пм код

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий