Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 23.08.2011, 22:27   #1
Кандидат наук
 
Аватар для Subudayj
 
Регистрация: 24.06.2008
Сообщений: 298
Репутация: 38299

По умолчанию Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Друзья, я решил написать бесплатный плагин для программы CheckParams (https://searchengines.guru/showthread.php?t=511667), который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форуме, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У меня пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.
__________________
Quo vadis?
Subudayj вне форума   Ответить с цитированием

Реклама
Старый 24.08.2011, 16:46   #2
MandaT
Кандидат наук
 
Регистрация: 23.03.2004
Сообщений: 294
Репутация: 45706

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

давно пользуюсь CheckParams, все устраивает, скорость работы и поддержка, и главное возможность расширения функционала.
вебархив был бы очень интересен.
В идеале сохранять полные копии сайтов в php за все даты, которые есть в архиве, но частенько часть страниц не видится в одну дату, другая часть страниц - в другую дату... то есть хорошо б создать еще одну папку с наиболее полным вариантом - не найденные страницы брать из других дат, если они будут...
MandaT вне форума   Ответить с цитированием
Старый 24.08.2011, 16:55   #3
leprekon
Кандидат наук
 
Аватар для leprekon
 
Регистрация: 13.05.2010
Сообщений: 262
Репутация: 17239
Отправить сообщение для leprekon с помощью ICQ

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Скорее будет более всего выгоден второй вариант, но, естественно, убрав оттуда вставки вебархива.
Ну а так-же можно было бы сделать парсер, используя макросы. Прописываешь, например, регулярное выражение для тайтла и контента, а скрипт сохраняет все в базу ВП или куда-нибудь ещё, как макросы указаны будут...
leprekon вне форума   Ответить с цитированием
Старый 25.09.2011, 00:10   #4
Kost Troll
Старожил
 
Аватар для Kost Troll
 
Регистрация: 20.12.2005
Адрес: Санкт-Петербург
Сообщений: 1,238
Репутация: 93966
Отправить сообщение для Kost Troll с помощью ICQ
Социальные сети Страница в Одноклассниках Профиль в ВКонтакте

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

В какой стадии работа ?
можете чем-то похвастаться ?
Kost Troll вне форума   Ответить с цитированием
Старый 25.09.2011, 22:05   #5
Subudayj
Кандидат наук
 
Аватар для Subudayj
 
Регистрация: 24.06.2008
Сообщений: 298
Репутация: 38299

ТопикСтартер Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Цитата:
Сообщение от Kost Troll Посмотреть сообщение
В какой стадии работа ?
можете чем-то похвастаться ?
На неделе планирую выложить релиз.
Subudayj вне форума   Ответить с цитированием
Старый 03.10.2011, 01:03   #6
Subudayj
Кандидат наук
 
Аватар для Subudayj
 
Регистрация: 24.06.2008
Сообщений: 298
Репутация: 38299

ТопикСтартер Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.
Для успешной работы модуля необходимо выполнить следующие действия:
  1. Разархивировать модуль в папку с программой CheckParams
  2. Убедиться, что версия CheckParams не ниже 1.267
  3. При необходимости скачать новую версию CheckParams (http://checkparams.com/ru/download). Для обновления достаточно заменить файл CheckParams.exe на новую версию
  4. Запустить парсер через файл run-wa-grabber.bat
  5. После запуска программы нажать на кнопку Settings для настройки параметров проверки
  6. В настройках на вкладке Main необходимо:
    a. Задать число потоков парсинга (Threads count)
    b. Выбрать файл с доменами, копии которых нужно получить
    c. Отредактировать содержимое файла с доменами (одна строка - один домен, домен должен быть записан в виде domain.com)
    d. Выбрать директорию, в которой будут сохранены результаты (для каждого домена создается своя поддиректория)
    e. Выбрать, будут ли использоваться прокси для парсинга веб-архива
  7. В настройках на вкладке Proxy необходимо прописать используемые прокси (если выбрана проверка через прокси):
    a. Указать тип (если тип заранее неизвестен, выбрать Auto)
    b. Вставить ссылку на веб-страницу со списком прокси (например, http://proxy.com)
    c. Или выбрать файл на локальном компьютере, в котором содержится список прокси
  8. Сохранить настройки, нажав на кнопку Save & Close
  9. Запустить парсинг нажатием на кнопку Start:
  10. Копии сайтов из веб-архива сохраняются по папкам согласно году их парсинга, то есть результаты будут сохранены в папки вида: domain1.com/2004, domain1.com/2005 и т.д.

Парсер можно скачать здесь.

P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия
Subudayj вне форума   Ответить с цитированием
Старый 03.10.2011, 15:53   #7
chernet
Аспирант
 
Регистрация: 22.09.2009
Сообщений: 227
Репутация: 22962

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

С помощью данного модуля выкачал 2 сайта в течении 15 минут
Автору модуля и автору программы - респект !
chernet вне форума   Ответить с цитированием
Старый 04.10.2011, 10:35   #8
architektor
Студент
 
Регистрация: 11.03.2010
Сообщений: 7
Репутация: -3443

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Домены вида www.domain.edu.ru не выдирает :-(
В логе:

Код:
2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function
Если, конечно, это имеет отношение к проблеме.
architektor вне форума   Ответить с цитированием
Старый 04.10.2011, 11:25   #9
Subudayj
Кандидат наук
 
Аватар для Subudayj
 
Регистрация: 24.06.2008
Сообщений: 298
Репутация: 38299

ТопикСтартер Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Цитата:
Сообщение от architektor Посмотреть сообщение
Домены вида www.domain.edu.ru не выдирает :-(
В логе:

Код:
2011-10-04 10:33:24.438;RTP: ScriptEngine: return value 1 from main:OnReqAfterWaListDataReceived function
Если, конечно, это имеет отношение к проблеме.
Проверю в ближайшее время.

Subudayj добавил 04.10.2011 в 18:40
Коллеги, вышла версия 1.02 парсера веб-архива.
Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.
Скачать новую версию можно здесь.
Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.

P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.

Последний раз редактировалось Subudayj; 04.10.2011 в 18:40.. Причина: Добавлено сообщение
Subudayj вне форума   Ответить с цитированием
Старый 04.10.2011, 20:04   #10
Mike05
Аспирант
 
Регистрация: 10.06.2009
Сообщений: 219
Репутация: 19523

По умолчанию Re: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Очень шустро скачало сайт, хотя и не полностью (хотя в сеттингс я поставил 50 потоков, но, похоже, работали все 900 запланированных). Я не совсем понял, считает ли сама прога, что она все сделала, т.к. кн. Старт осталась нажатой, но она уже ничего не делает.

В папке результатов три подпапки с годами, а объединялись ли там (если да, то как) версии в рамках года я не очень понял.

Недостаток: почему-то не скачались страницы вида домен/news.htm?nid=555 - хотя в вебархиве они есть.

Вот это бы поправить, и чтоб все выкачивало. А еще (но это, возможно, надо отдельной программой не при скачивании) - делать наиболее полную версию сайта (за основу последнюю копию, и дальше искать недостающие страницы в предыдущих) - было бы здорово.

В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.

ЗЫ: кстати, не знаю, кто инициатор такой фичи, но исходный сайт в кодировке 1251, а скачанный в утф-8 (соотв. барузер это показывает только после ручного выставления кодировки или правки заголовков страниц).

Последний раз редактировалось Mike05; 04.10.2011 в 20:19..
Mike05 вне форума   Ответить с цитированием
Ответ

Метки
how to earn a million



Опции темы

Быстрый переход


Регистрация Справка Календарь Поддержка Все разделы прочитаны