Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

67

Subudayj

23 августа 2011, 18:27

20927

Друзья, я решил написать бесплатный плагин для программы CheckParams (/ru/forum/511667), который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форуме, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?

У меня пока есть 3 варианта:

1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты

2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам

3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.

Quo vadis?

MT

170

MandaT

24 августа 2011, 12:46

#1

давно пользуюсь CheckParams, все устраивает, скорость работы и поддержка, и главное возможность расширения функционала.

вебархив был бы очень интересен.

В идеале сохранять полные копии сайтов в php за все даты, которые есть в архиве, но частенько часть страниц не видится в одну дату, другая часть страниц - в другую дату... то есть хорошо б создать еще одну папку с наиболее полным вариантом - не найденные страницы брать из других дат, если они будут...

На Яндекс.Диске появились общие ВКонтакте появилась возможность расширенной Mail.Ru Group запустила плагин

27

leprekon

24 августа 2011, 12:55

#2

Скорее будет более всего выгоден второй вариант, но, естественно, убрав оттуда вставки вебархива.

Ну а так-же можно было бы сделать парсер, используя макросы. Прописываешь, например, регулярное выражение для тайтла и контента, а скрипт сохраняет все в базу ВП или куда-нибудь ещё, как макросы указаны будут...

В Яндекс.Вебмастере появились расширенные Как и зачем создавать Александр Садовский на конференции

184

Kost Troll

24 сентября 2011, 20:10

#3

В какой стадии работа ?

можете чем-то похвастаться ?

Продажа компьютеров Спб (Купчино) (http://computer812.ru)

67

Subudayj

25 сентября 2011, 18:05

#4

Kost Troll:
В какой стадии работа ?
можете чем-то похвастаться ?

На неделе планирую выложить релиз.

67

Subudayj

2 октября 2011, 21:03

#5

Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.

Для успешной работы модуля необходимо выполнить следующие действия:

Разархивировать модуль в папку с программой CheckParams
Убедиться, что версия CheckParams не ниже 1.267
При необходимости скачать новую версию CheckParams (http://checkparams.com/ru/download). Для обновления достаточно заменить файл CheckParams.exe на новую версию
Запустить парсер через файл run-wa-grabber.bat
После запуска программы нажать на кнопку Settings для настройки параметров проверки

В настройках на вкладке Main необходимо:

В настройках на вкладке Proxy необходимо прописать используемые прокси (если выбрана проверка через прокси):

http://proxy.com

Сохранить настройки, нажав на кнопку Save & Close
Запустить парсинг нажатием на кнопку Start:

Копии сайтов из веб-архива сохраняются по папкам согласно году их парсинга, то есть результаты будут сохранены в папки вида: domain1.com/2004, domain1.com/2005 и т.д.

Парсер можно скачать здесь.

P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия :)

Бесплатный многопоточный парсер выдачи Бесплатный модуль проверки занятости KEI Checker - качественный

C

73

chernet

3 октября 2011, 11:53

#6

С помощью данного модуля выкачал 2 сайта в течении 15 минут :)

Автору модуля и автору программы - респект !

A

35

architektor

4 октября 2011, 06:35

#7

Домены вида www.domain.edu.ru не выдирает :-(

В логе:

2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function

Если, конечно, это имеет отношение к проблеме.

67

Subudayj

4 октября 2011, 07:25

#8

architektor:
Домены вида www.domain.edu.ru не выдирает :-(
В логе:

2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function

Если, конечно, это имеет отношение к проблеме.

Проверю в ближайшее время.

Subudayj добавил 04.10.2011 в 18:40

Коллеги, вышла версия 1.02 парсера веб-архива.

Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.

Скачать новую версию можно здесь.

Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.

P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.

Скрипт комментариев. Tubes Clip One - Бесплатный многопоточный парсер выдачи

M0

91

Mike05

4 октября 2011, 16:04

#9

Очень шустро скачало сайт, хотя и не полностью (хотя в сеттингс я поставил 50 потоков, но, похоже, работали все 900 запланированных). Я не совсем понял, считает ли сама прога, что она все сделала, т.к. кн. Старт осталась нажатой, но она уже ничего не делает.

В папке результатов три подпапки с годами, а объединялись ли там (если да, то как) версии в рамках года я не очень понял.

Недостаток: почему-то не скачались страницы вида домен/news.htm?nid=555 - хотя в вебархиве они есть.

Вот это бы поправить, и чтоб все выкачивало. А еще (но это, возможно, надо отдельной программой не при скачивании) - делать наиболее полную версию сайта (за основу последнюю копию, и дальше искать недостающие страницы в предыдущих) - было бы здорово.

В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.

ЗЫ: кстати, не знаю, кто инициатор такой фичи, но исходный сайт в кодировке 1251, а скачанный в утф-8 (соотв. барузер это показывает только после ручного выставления кодировки или правки заголовков страниц).

[мое брахло] старенький дорген Посещаемость и трафик с При первом заходе на

184

Kost Troll

4 октября 2011, 17:45

#10

Mike05,

В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.

А у вас собственно было с чем сравнивать ????

Я так понимаю, автор продвигает собственно не сам скрипт а систему CheckParams

Лицензия на которую стоит 35 баксов в год.

А отдельные подобные скрипты стоят 35 баксов не год а навсегда.

http://seomoneys.net/?p=295

Это я к тому, что бесплатность данного продукта - весьма относительна :)

Дорген за 1к зелени Кто-нибудь пользуется программой TrafficLinks? подарите Satellit-X

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи