Веб-Архив парсер

B1
На сайте с 13.12.2012
Offline
28
415

не удалось ап-нуть: /ru/forum/826629

по многочисленным просьбам в ЛС, ложу скрипт с более расширенным функционалом.

реализовано с помощью "Wayback CDX Server API" подробнее по ссылке

организован мульти-аплойд(cURL) за раз по дефолту по 5 документов, по моим результатам тестирования прокси не требуются, выкачивал до 1к документов без бана с одного IP за раз. на хорошем канале не более 5 минут...

оговорюсь сразу, в скрипте много мусора. он работа способен. но, как обычно, нет времени пилить для народа:)...

как работает:

0) распакуем и закинем в папку на сервере, вызываем [путь-к-папке]/wad.php

1) вводим домен

2) вводим начальную и конечную дату парсинга (опционально), формат ввода: yyyyMMddhhmmss

3) запускаем...

4) скрипт уберет штампы ВА

5) сохранит в текущем каталоге папку с результатом парсинга в том виде, что есть (за исключением спец. символов - они будут заменены, смотрим в коде на, что)

6) внимание! пока ограничение 1к документов.

7) + есть поддержка перезапуска

просьба! о багах, пожеланиях, а так-же если Вы меняете исходный код и улучшаете его... выкладывать здесь в данном топике.

zip wad.zip

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий