CURL не парзит https сайт

12 3
A
На сайте с 12.10.2011
Offline
193
1133

Всем привет, столкнулся с проблемой, curl не может распарзить https страницу, при этом некоторые Https страницы на др сайтах ок.

Вот код, попробовал поиграть с этим параметрами

    curl_setopt( $ch, CURLOPT_SSL_VERIFYPEER, 0 ); 

curl_setopt( $ch, CURLOPT_SSL_VERIFYHOST, 0 );

ничего не вышло. код целиком:

$USERAGENT = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"; 

$ch = curl_init( );
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt( $ch, CURLOPT_USERAGENT, $USERAGENT );
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, 1 );
curl_setopt( $ch, CURLOPT_SSL_VERIFYPEER, 0 );
curl_setopt( $ch, CURLOPT_SSL_VERIFYHOST, 0 );

curl_setopt( $ch, CURLOPT_REFERER, $ref );
curl_setopt( $ch, CURLOPT_COOKIEJAR, "temp.txt" );
curl_setopt( $ch, CURLOPT_COOKIEFILE, "temp.txt" );
curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, 1 );
curl_setopt( $ch, CURLOPT_TIMEOUT, 60 );
$get = curl_exec( $ch );
curl_close( $ch );
return $get;
skapunker
На сайте с 15.01.2014
Offline
217
#1

защита от ботов стоит, вот и все

LEOnidUKG
На сайте с 25.11.2006
Offline
1733
#2

Что значит, не парсит?! Что значит некоторые ок, а некоторые нет?

Вас просто может блокировать сайт и всё.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
A
На сайте с 12.10.2011
Offline
193
#3
skapunker:
защита от ботов стоит, вот и все

А можно зашифроваться под юзера? Вроде стоит мозилла и тп в хедере

O
На сайте с 30.09.2019
Offline
18
#4

Возможно, не хватает


curl_setopt($ch, CURLOPT_HEADER, false);
_
На сайте с 24.03.2008
Offline
381
#5

Curl вообще-то парзить ничего не должен.

Если вы не получаете Curl то, что получаете своим браузером(отключив js ), то весьма вероятно что вас "спалили и забанили".

-S
На сайте с 10.12.2006
Offline
1355
#6

Хорошо, что при помощи CF можно пачками в несколько кликов сеять все парсеры с более сложными алгоритмами. Задолбали грузить серваки все подряд.

tommy-gung
На сайте с 22.11.2006
Offline
287
#7

-= Serafim =-, кто захочет, обойдет любую защиту

Здесь не могла быть ваша реклама
-S
На сайте с 10.12.2006
Offline
1355
#8
tommy-gung:
-= Serafim =-, кто захочет, обойдет любую защиту

Кому это надо? Берут другой донор и все, обходить защиты - это время и деньги.

SocFishing
На сайте с 26.09.2013
Offline
118
#9

Что выдаст

$url = '/;
if($curl = curl_init()) {
curl_setopt($curl,CURLOPT_URL, $url);
curl_setopt($curl,CURLOPT_RETURNTRANSFER,true);
curl_setopt($curl,CURLOPT_FOLLOWLOCATION,true);
curl_setopt($curl,CURLOPT_SSL_VERIFYPEER,false);
curl_setopt($curl,CURLOPT_CONNECTTIMEOUT,15);
curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36');
$html = curl_exec($curl);
curl_close($curl);
}
echo $html;

Скорее всего да - ограничение сайта.

★Сервис идентифицирует (https://socfishing.com/?utm_source=searchengines) посетителей вашего сайта и предоставляет их профили ВКонтакте, Телефон, Почта! Цены копеечные, работаем 8 лет.
O
На сайте с 30.09.2019
Offline
18
#10
SocFishing:
Скорее всего да - ограничение сайта.

Да ладно ) А если так:


$url = '/;
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_HEADER, false);
$results = curl_exec ($ch);
curl_close($ch);

$doc = new DOMDocument();
@$doc->loadHTML($results);
$xpath = new DomXPath($doc);
$elements = $xpath->query('.//tr/td');
foreach ($elements as $i=>$element) {
echo $xpath->query($element->getNodePath().'/div')->item(0)->nodeValue.'<br />';
}
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий