Закачка страниц

Ampersand

5 мая 2008, 22:01

322

Вопрос простой:

Нужно сосканировать поуровнево все имеющиеся страницы сайта, например загрузили все с главной, потом все ссылки с этих и т.д.

Имея URL получаем контент кодом:

           $fp = fsockopen("имя_сайта", 80);

           fputs($fp, "GET /страница_сайта HTTP/1.1\r\n");

           fputs($fp, "Host: имя_сайта\r\n");

           fputs($fp, "Connection: close\r\n");

           fputs($fp, "\r\n");

           while (!feof($fp)){

              @$headers .= fgets($fp);

           }

Сканируем все полученные URL поочередно:

           $fp = fsockopen("имя_сайта", 80);

           fputs($fp, "HEAD /страница_сайта HTTP/1.1\r\n");

           fputs($fp, "Host: имя_сайта\r\n");

           fputs($fp, "Connection: close\r\n");

           fputs($fp, "\r\n");

           while (!feof($fp)){

              @$headers .= fgets($fp, 1000);

           }

Далее по полученным заголовкам проверяем "подлинность" страницы (сам процесс не важен)

Вопрос: При таком сканировании большого количества страниц по-моему большая нагрузка на сервер. Меня интересует с физической стороны - как минимизировать нагрузку, сделать тайм-аут небольшой между получениями данных или как? Возможно код кривой?

peterpro

5 мая 2008, 22:32

Вставляете sleep($i); между итерациями, где $i - секунды. Если надо в миллисекундах - то это usleep ($msec);

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, чтобы попасть в ответы Google Bard

Закачка страниц