Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Subudayj
На сайте с 24.06.2008
Offline
67
20624

Друзья, я решил написать бесплатный плагин для программы CheckParams (/ru/forum/511667), который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форуме, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?

У меня пока есть 3 варианта:

1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты

2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам

3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.

Quo vadis?
MT
На сайте с 23.03.2004
Offline
115
#1

давно пользуюсь CheckParams, все устраивает, скорость работы и поддержка, и главное возможность расширения функционала.

вебархив был бы очень интересен.

В идеале сохранять полные копии сайтов в php за все даты, которые есть в архиве, но частенько часть страниц не видится в одну дату, другая часть страниц - в другую дату... то есть хорошо б создать еще одну папку с наиболее полным вариантом - не найденные страницы брать из других дат, если они будут...

leprekon
На сайте с 13.05.2010
Offline
27
#2

Скорее будет более всего выгоден второй вариант, но, естественно, убрав оттуда вставки вебархива.

Ну а так-же можно было бы сделать парсер, используя макросы. Прописываешь, например, регулярное выражение для тайтла и контента, а скрипт сохраняет все в базу ВП или куда-нибудь ещё, как макросы указаны будут...

Kost Troll
На сайте с 20.12.2005
Offline
184
#3

В какой стадии работа ?

можете чем-то похвастаться ?

Продажа компьютеров Спб (Купчино) (http://computer812.ru)
Subudayj
На сайте с 24.06.2008
Offline
67
#4
Kost Troll:
В какой стадии работа ?
можете чем-то похвастаться ?

На неделе планирую выложить релиз.

Subudayj
На сайте с 24.06.2008
Offline
67
#5

Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.

Для успешной работы модуля необходимо выполнить следующие действия:

  • Разархивировать модуль в папку с программой CheckParams
  • Убедиться, что версия CheckParams не ниже 1.267
  • При необходимости скачать новую версию CheckParams (http://checkparams.com/ru/download). Для обновления достаточно заменить файл CheckParams.exe на новую версию
  • Запустить парсер через файл run-wa-grabber.bat
  • После запуска программы нажать на кнопку Settings для настройки параметров проверки
  • В настройках на вкладке Main необходимо:
  • В настройках на вкладке Proxy необходимо прописать используемые прокси (если выбрана проверка через прокси):
  • b. Вставить ссылку на веб-страницу со списком прокси (например, http://proxy.com
  • Сохранить настройки, нажав на кнопку Save & Close
  • Запустить парсинг нажатием на кнопку Start:
  • Копии сайтов из веб-архива сохраняются по папкам согласно году их парсинга, то есть результаты будут сохранены в папки вида: domain1.com/2004, domain1.com/2005 и т.д.

Парсер можно скачать здесь.

P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия :)

C
На сайте с 22.09.2009
Offline
73
#6

С помощью данного модуля выкачал 2 сайта в течении 15 минут :)

Автору модуля и автору программы - респект !

A
На сайте с 11.03.2010
Offline
35
#7

Домены вида www.domain.edu.ru не выдирает :-(

В логе:

2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function

Если, конечно, это имеет отношение к проблеме.

Subudayj
На сайте с 24.06.2008
Offline
67
#8
architektor:
Домены вида www.domain.edu.ru не выдирает :-(
В логе:

2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function


Если, конечно, это имеет отношение к проблеме.

Проверю в ближайшее время.

Subudayj добавил 04.10.2011 в 18:40

Коллеги, вышла версия 1.02 парсера веб-архива.

Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.

Скачать новую версию можно здесь.

Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.

P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.

M0
На сайте с 10.06.2009
Offline
91
#9

Очень шустро скачало сайт, хотя и не полностью (хотя в сеттингс я поставил 50 потоков, но, похоже, работали все 900 запланированных). Я не совсем понял, считает ли сама прога, что она все сделала, т.к. кн. Старт осталась нажатой, но она уже ничего не делает.

В папке результатов три подпапки с годами, а объединялись ли там (если да, то как) версии в рамках года я не очень понял.

Недостаток: почему-то не скачались страницы вида домен/news.htm?nid=555 - хотя в вебархиве они есть.

Вот это бы поправить, и чтоб все выкачивало. А еще (но это, возможно, надо отдельной программой не при скачивании) - делать наиболее полную версию сайта (за основу последнюю копию, и дальше искать недостающие страницы в предыдущих) - было бы здорово.

В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.

ЗЫ: кстати, не знаю, кто инициатор такой фичи, но исходный сайт в кодировке 1251, а скачанный в утф-8 (соотв. барузер это показывает только после ручного выставления кодировки или правки заголовков страниц).

Kost Troll
На сайте с 20.12.2005
Offline
184
#10

Mike05,

В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.

А у вас собственно было с чем сравнивать ????

Я так понимаю, автор продвигает собственно не сам скрипт а систему CheckParams

Лицензия на которую стоит 35 баксов в год.

А отдельные подобные скрипты стоят 35 баксов не год а навсегда.

http://seomoneys.net/?p=295

Это я к тому, что бесплатность данного продукта - весьма относительна :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий