- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ищу парсер\чекер с таким функционалом. Даёшь ему список урлов вида, он по ним пробегает и если находит на странице заданный текст(например "404 Page not found") записывает этот урл в файл.
http://home.snafu.de/tilman/xenulink.html
Create a text file with the URLs you want to check, one URL per row.
To load this file in Xenu, use Check URL list command in File menu.
Xenu will check all links on submitted URLs and generate the report.
urls.txt - файл с урлами
4arger, я бы ещё CURLOPT_TIMEOUT выставил бы какой-нибудь разумный.
Tarry, согласен)))
PS поправил:
puika, в режиме скана списка урлов, парсер бегает во внутренним ссылкам на странице и парсит их. И, если я правильно понял хелп, это не отключается. А результаты он экспортирует только в свой формат, т.е. нужные результаты выцепить не получается.
4arger, залил на хостинг, запускаю, жду, result.txt не пополняется. Скрипт кладёт урлы в result.txt только если от них ответом приходит 404 ошибка? А хостиги, на которых лежат проверяемые сайты, в случае отсутствия файла или блокировки сайта, редеректят на свою страницу. Там и пишут, что "404 ". Но самого кода ошибки нет. Что нужно подправит в скрипте, чтобы он клал урлы в result.txt, если находит на странице какой-то текст(под каждую партию разный).
на выходе два файла: с ответом "200 ОК" и с другими ответами.
на выходе два файла: с ответом "200 ОК" и с другими ответами.
Бывает, что в Титле страницы написано 404, а отклик сервера 200. Либо идёт редирект на страницу 404.html которая даёт код 200. Т.е. настроено неправильно. Но такое тоже надо фильтровать. Ведь исправят же со временем. Т.е. если отдаёт код редиректа вместе с откликом 200 - то это тоже ошибка.
4arger, спасибо). Последний вариант работает, страницы с редиректом идут в not200.txt.