Ищу простой парсер\чекер на 404

30

Magnetic Resonance

6 ноября 2010, 17:00

2334

Ищу парсер\чекер с таким функционалом. Даёшь ему список урлов вида, он по ним пробегает и если находит на странице заданный текст(например "404 Page not found") записывает этот урл в файл.

[Удален]

6 ноября 2010, 17:18

#1

http://home.snafu.de/tilman/xenulink.html

Create a text file with the URLs you want to check, one URL per row.

To load this file in Xenu, use Check URL list command in File menu.

Xenu will check all links on submitted URLs and generate the report.

Google: как оптимизировать изображения Google: отправка URL на Ошибки в инструменте проверки

95

4arger

6 ноября 2010, 17:22

#2

urls.txt - файл с урлами


<?php 

set_time_limit(0);

foreach(file("urls.txt") as $url) {

$ch = curl_init(trim($url));

curl_setopt($ch, CURLOPT_HEADER, true);

curl_setopt($ch, CURLOPT_NOBODY, true);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

curl_exec($ch);

$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);

curl_close($ch);

if($status == 404) $result[] = $url;

}

file_put_contents("result.txt", $result);

 ?>

445

Таггу x_x

6 ноября 2010, 17:36

#3

4arger, я бы ещё CURLOPT_TIMEOUT выставил бы какой-нибудь разумный.

☠️☠️☠️

95

4arger

6 ноября 2010, 17:56

#4

Tarry, согласен)))

PS поправил:


<?php 
set_time_limit(0);
foreach(file("urls.txt") as $url) {
$ch = curl_init(trim($url));
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_NOBODY, true);
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 10 секунд
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_exec($ch);
$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);
curl_close($ch);
if($status == 404) $result[] = $url;
}
file_put_contents("result.txt", $result);
 ?>

MR

30

Magnetic Resonance

6 ноября 2010, 18:31

#5

puika, в режиме скана списка урлов, парсер бегает во внутренним ссылкам на странице и парсит их. И, если я правильно понял хелп, это не отключается. А результаты он экспортирует только в свой формат, т.е. нужные результаты выцепить не получается.

When running a scan for URL list, it is not possible to exclude "external" links from the scan like when checking a single URL!

4arger, залил на хостинг, запускаю, жду, result.txt не пополняется. Скрипт кладёт урлы в result.txt только если от них ответом приходит 404 ошибка? А хостиги, на которых лежат проверяемые сайты, в случае отсутствия файла или блокировки сайта, редеректят на свою страницу. Там и пишут, что "404 ". Но самого кода ошибки нет. Что нужно подправит в скрипте, чтобы он клал урлы в result.txt, если находит на странице какой-то текст(под каждую партию разный).

Заметки с видеовстречи Google В Яндексе рассказали, как Google изменил свой подход

95

4arger

6 ноября 2010, 18:56

#6

на выходе два файла: с ответом "200 ОК" и с другими ответами.


<?php 

set_time_limit(0);

foreach(file("urls.txt") as $url) {

	$ch = curl_init(trim($url));

	curl_setopt($ch, CURLOPT_HEADER, true);

	curl_setopt($ch, CURLOPT_NOBODY, true);

	curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 10 секунд

	curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

	curl_exec($ch);

	$status = curl_getinfo($ch, CURLINFO_HTTP_CODE);

	curl_close($ch);

	$status == 200 ? $result['200'][] = $url : $result['not200'][] = $url;

}

if(!empty($result['200'])) file_put_contents("200.txt", $result['200']);

if(!empty($result['not200'])) file_put_contents("not200.txt", $result['not200']);

 ?>

S2

611

Str256

6 ноября 2010, 19:07

#7

4arger:
на выходе два файла: с ответом "200 ОК" и с другими ответами.

Бывает, что в Титле страницы написано 404, а отклик сервера 200. Либо идёт редирект на страницу 404.html которая даёт код 200. Т.е. настроено неправильно. Но такое тоже надо фильтровать. Ведь исправят же со временем. Т.е. если отдаёт код редиректа вместе с откликом 200 - то это тоже ошибка.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

Google сканирует ссылки только Google может расценивать старые Как устранить ошибки сканирования

MR

30

Magnetic Resonance

6 ноября 2010, 19:24

#8

4arger, спасибо). Последний вариант работает, страницы с редиректом идут в not200.txt.

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ