Бан за парсинг выдачи

K
На сайте с 02.11.2009
Offline
35
1409

Написал простенький скрипт на php - парсинг выдачи. Запускаю с денвера - банят, ищу вручную в браузере - всё нормально. Как так, ip же одинаковый?

leo3331
На сайте с 07.01.2007
Offline
154
#1

юзер агент?

leo3331 добавил 16.12.2010 в 17:54

а лучше всего смотри мот ифрэйм какойто есть который куку принимает или ещё чо... то что не зависит от js

WS
На сайте с 17.11.2010
Offline
25
#2
Kroid:
Как так, ip же одинаковый

А User-Agent, Reference, java-script?

Как минимум используйте curl + эмуляцию User-Agent'а какого либо браузера.

А вообще есть же xml.yandex.ru, чем вас он не устроил? Там не банят.

leo3331
На сайте с 07.01.2007
Offline
154
#3

Reference это что?

K
На сайте с 02.11.2009
Offline
35
#4

На денвере курла нет,парсю простым file_get_contents(). Можно виртуалку с фряхой запустить, но устанавливать это всё геморно.

А вообще есть же xml.yandex.ru.

Не более 1к раз в сутки немного удручает.

WS
На сайте с 17.11.2010
Offline
25
#5
Kroid:
Не более 1к раз в сутки немного удручает.

Гмм, в чем проблема делаешь 10 юзеров и подтверждаешь 10 телефонов (попроси друзей, родных), кучу ip адресов можно получить скажем подключив мобильный 3G модем, там каждое подключение новый ip адрес, будет тебе 10к в сутки.

P.S. Кажется я понимаю почему тебя забанили, если тебе 1к запросов в сутки мало, то конечно тебя любой ПС забанит, у меня одиночные запросы через file_get_contents работали на ура, если конечно посылать по 100 запросов в минуту забанят быстро.

WhiteSmartFox добавил 16-12-2010 в 18:12

Kroid:
На денвере курла нет,парсю простым file_get_contents()

А в чем проблема скачать и поставить? Там все элементарно.

AK
На сайте с 27.05.2009
Offline
34
#6
Kroid:
На денвере курла нет,парсю простым file_get_contents(). Можно виртуалку с фряхой запустить, но устанавливать это всё геморно..

у file_get_contents есть параметр куда можно передавать результат функции сreate_stream_context. В этой функции можно указать все, что вам нужно

WS
На сайте с 17.11.2010
Offline
25
#7
alex.kwan:
у file_get_contents есть параметр куда можно передавать результат функции сreate_stream_context. В этой функции можно указать все, что вам нужно

Это все не поможет, если надо тысячи запросов в сутки гонять, забанят просто по кол-ву запросов (+ отсутствию переходов, JS и загрузки картинок).

WhiteSmartFox добавил 16-12-2010 в 18:16

leo3331:
Reference это что?

Описался, он тут не причем

юни
На сайте с 01.11.2005
Offline
933
#8
WhiteSmartFox:
эмуляцию User-Agent'а

Эмуляцию всего.

Народ живёт в начале тыщелетия, всё думает, что можно дёргать инфу по одному (и самому простейшему) признаку, остальное игнорировать, и им за это ничего не будет.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
T
На сайте с 16.12.2010
Offline
0
#9

Если я ничего не путаю, то у гугла есть платный API для запроса информации пачками.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий