обработка ETag и 304 Not Modified (индексирующий робот на CURL)

X
На сайте с 17.07.2006
Offline
0
2053

Отслеживаю информацию на нескольких сайтах. Написал простенького робота на curl, натравил на каждый сайт.

Трафик достаточно неслабый получается, поэтому возникло желание немного сэкономить: один из сайтов отдает правильные заголовки ( ETag, Last-Modified и т.п. - всё в соответствии со статьей h**p://xpoint.ru/know-how/Articles/SlezhenieZaKontentom )

Использую стандартный кусок кода, который сохраняет страницу в файл, что-то вроде:


function curlurl ($ url1) {
$curl = curl_init( );
$fp = fopen("somefile.txt", "w");
curl_setopt ($curl, CURLOPT_URL, $url1");
curl_setopt($curl, CURLOPT_FILE, $fp);
curl_exec ($curl);
curl_close ($curl);
}

Подскажите, где найти пример более "тонкой" работы с curl для того, чтобы не скачивать страницы, которые не изменились с последнего захода или хотя бы в какую сторону смотреть и искать.

X
На сайте с 17.07.2006
Offline
0
#1

Разобрался сам.


curl_setopt($curl, CURLOPT_NOBODY, 1);
curl_setopt($curl, CURLOPT_HEADER, 1);

Далее парсить заголовки.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий