Многопоточный парсер, т.е. парсинг в несколько независимых процессов скачивания, а не в один. У вас сейчас парсит страницы в 1 поток. Это долго, так как пока контент страницы не будет получен, функция не приступает к скачиванию другой страницы.
Для примера:
http://stupid.su/php-curl_multi/
В гугле множество примеров: multi curl, async sockets, thread process или же простые php -q, fopen php и т.п.
Я так понял страниц достаточно много для парсинга и их нужно постоянно обновлять. Если нет, то все в один поток скрипя байтами можно тянуть.
Тогда:
На главную, значит не критическая ;-)
Напоминает какую-то XML ошибку. А какой файл возвращает ошибку. Желательно строку из лога. Может и в шаблонизаторе проблема.
Я и сам таким грешил когда-то давно, после пачки заявок просто вешал на страницы редирект. ;)
Оказывает воздействие хорошо сформированная заявка к регистратору домена и к хостеру. Последние должны уведомить обладателя сайта и открыть тикет.
Если сайт подчистую тянет, то должно что-то напрягать владельца, если же это копипасты с источником, то он может смело вас игнорить до санкций.
Попросите владельца разместить на вас ссылку. Еще хитрость, постите новости задним числом, пробуйте внедрять в новости скрытые скрипты, пробуйте менять теги, за которые цепляется парсер и найдите канал, чтобы вас быстрее индексировали. Гугл и яндекс вебмастер обязательно. В яндекс можно жаловаться на копипаст через интерфейс вебмастера (т.е. вы автор, а тот вот этот текст тырит).
Установите защиты на заходы ботов! Фиксируйте IP, скорее всего заходы с того же IP что и у сайта воришки. Чем сложнее будет парсинг, тем менее интересны будут ваши тексты.
Оформлять ИП это безрассудство, пока бизнес не начал приносить нормальные деньги. Тем более в Украине, когда там такие шальные действия и всем особо то наплевать))) имхо.
Из byuka нужно убрать лишнее
Подробнее. Где вылетает и пример. Тут гадалок нет.
1. По всей видимости у вас кеш в браузере, по этой причине и быстро
2. Если парсите не с локалхоста, а с сервера - то значит у сервера канал шире
3. Возможно на сайте кеширование, страницы вне кеша долго грузит, а вы грузите ранее открываемые страницы сайта
4. Нагрузка на сайте который парсите скачет
Ускорить можно потоками на парсинг.. +
Это можно сделать стилями. Пример:
Пример:
Не совсем понял что нужно. Но облагородил бы так.
еще небольшая поправка
а то можно было сделать так
тоде уязвимое на XSS место