ZoidbergxD

Рейтинг
40
Регистрация
20.04.2011
Supervisork:
а может парсить не более 1 страницы в минуту? Может тогда защита н станет паниковать?

Не помогло...

Bioblocker:
ZoidbergxD, решить можно только сменой прокси, сам занимаюсь парсингом, купил элитных проксей пачку и теперь бед не знаю)

Сколько это стоит и где купил? Просто получается что если на сайте больше 9000 страниц и спарсить с одного ip можно всего 15... нужно 600 рабочих проксей?

Bioblocker:
листинг того как курлом отправляешь запросы можешь дать посмотреть?



$curl = curl_init(); //инициализация сеанса
curl_setopt($curl, CURLOPT_URL, 'http://www.сайт.ru/projects.php'); //урл сайта к которому обращаемся

curl_setopt($curl, CURLOPT_COOKIEJAR, $_SERVER['DOCUMENT_ROOT'].'/cook.txt');//сохранить куки в файл
curl_setopt($curl, CURLOPT_COOKIEFILE, $_SERVER['DOCUMENT_ROOT'].'/cook.txt');//считать куки из файла

curl_setopt($curl, CURLOPT_HEADER, 1); //выводим заголовки
curl_setopt($curl, CURLOPT_POST, 1); //передача данных методом POST
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //теперь curl вернет нам ответ, а не выведет

curl_setopt($curl, CURLOPT_FAILONERROR, 1);

//curl_setopt($curl, CURLOPT_PROXY, "218.246.22.98:3128");

/*
curl_setopt($curl, CURLOPT_POSTFIELDS, //тут переменные которые будут переданы методом POST
array (
'name'=>'',
'searchButton'=>'get' //это на случай если на сайте, к которому обращаемся проверяется была ли нажата кнопка submit, а не была ли оправлена форма
));
*/

curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:25.0) Gecko/20100101 Firefox/25.0'); //эта строчка как-бы говорит: "я не скрипт, я IE5" :)



curl_setopt ($curl, CURLOPT_REFERER, "http://сайт.ru"); //а вдруг там проверяют наличие рефера
$res = curl_exec($curl);

foxi:
можно эмулировать браузер, хуманом эмулятором или аналогами.

хорошая идея "не изобретать велосипед". а какие аналоги существуют?

foxi:
самое примитивное - куки. на повторном заходе их у вас нету, вы ведь не вставили в свой курл посылать сохраненные куки?
а вообще в хороших системах антиддоса многоступенчатая система проверок.

в том то и дело, что ставил

admak:
Хочу в магазине стырить по мелочевке, но после 10-15 ходок срабатывает сингализация, приезжают менты и стоят целые сутки. Тырю не я один, так что сигнализация всегда на стреме.

Слышал, что от сигнализации заячья лапка в кармане помогает, но не уверен.

ps: обычно для бана разницы нет, что курл, что file_get_content, что полноценный браузер.

так как он отличает пользователя от бота?

foxi:
если там антиддос стоит - то туго вам придется, будут блокировать ваши недопарсеры.
может и курл не помочь скорее всего, потому что защиты стоят не только по кукам, но и по исполняемости js картинок и т.п.

это можно как то решить через CURL? сейчас пробовал через CURL - результат - тот же.

еще фишка в том, что при заходе через ТОР я иногда уже изначально оказываюсь забаненным, возможно некоторые адреса паленые уже.. или это нереально?

Cygnus:
Для этого и вопрос задан. Если человек скачал TORBundle, то подумаем в чем причина, а вот если он просто взял и направил весь свой трафик в тор из своего обычного браузера, то он не понимает зачем ему тор и не понимает совсем что делает.

заходил через TORBundle

TF-Studio:
Теперь все понятно...

Надеюсь Curl используется?

Заходим на морду, берем куку, идем парсить дальше - для начала так попробуйте

Curl не используется. Где можно больше почитать по данной теме?

Всего: 81