Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Kost Troll
На сайте с 20.12.2005
Offline
184
#21

Subudayj, просто хочется расставить все точки над I .

Что мы собственно с вами, общими усилиями сделали.

Бесплатный многопоточный парсер WebArchive в виде плагина к платной программе Checkparams

И никаких претензий !

Продажа компьютеров Спб (Купчино) (http://computer812.ru)
Subudayj
На сайте с 24.06.2008
Offline
67
#22
Kost Troll:
Subudayj, просто хочется расставить все точки над I .
Что мы собственно с вами, общими усилиями сделали.
Бесплатный многопоточный парсер WebArchive в виде плагина к платной программе Checkparams

По существу вопроса можете что-то сказать? :) Как говорится, колхоз - дело добровольное, я никого не призываю ничего покупать.

Quo vadis?
Filan
На сайте с 26.05.2011
Offline
119
#23

Subudayj, склоняюсь к 3му варианту. Но лучше поставить голосовалку на этот топик.

Subudayj
На сайте с 24.06.2008
Offline
67
#24
Filan:
Subudayj, склоняюсь к 3му варианту. Но лучше поставить голосовалку на этот топик.

Я сейчас как раз делаю вариант, что абсолютно все ссылки сохраняются на диск (имена файлов будут в виде MD5-хэшей), а потом уже с помощью .htaccess делается редирект на пхпшный скрипт, который сам решает, какую страницу отображать в ответ на запрос веб-сервера. И вот как раз в этом скрипте можно реализовать любую логику перед выводом запрошенной страницы - вставлять код сапы, заменять какие-то части текста и т.д.

В общем, как будет релиз, я приложу пример сохраненной копии сайта, которую можно будет сразу же залить на хостинг без какой-либо "допилки".

Filan
На сайте с 26.05.2011
Offline
119
#25

Subudayj, а на когда релиз запланирован?

Subudayj
На сайте с 24.06.2008
Offline
67
#26
Filan:
Subudayj, а на когда релиз запланирован?

Думаю, ближе к завтрашнему вечеру.

[Удален]
#27
Subudayj:

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У меня пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

3) Коды бирж щетчики и прочие легко вставить куда нужно дополнительным софтом рекомендую - Multiple File Replace Она также может без особых телодвижений с вашей стороны повырезать все битые ссылки если они будут внешними - просто вырезаются все куски которые начинаются на <a href='http и заканчиваются на </a> а в место этого в то место ставится например код вывода одной сапоссылки :) Блоки которые хотите убрать со всех тысяч страниц статичной версии сайта также Multiple File Replace в помощь.

1) Вариант не нравитя лучше без базы, статику...

2)

Все что хранится в WA в рамках одного года, складывается в одну папку. При этом данные могут перезаписываться. Пока лучшего алгоритма не придумал

А как именно они перезаписываются? Оптимально мне кажется в рамках одного года (или на выбор всего периода) берется самая древняя дата - выкачивается, потом более раньняя выкачивается и накладывается поверх старой (перезаписывает ее) и.т.д. В результате имеем самую последнюю версию сайта, но если в ней отсутствуют страницы которые были в архиве в других датах то они тоже будут в финальной версии.

Особо хочу обратить внимание на то что с битыми ссылками надо точно чего то решать, много битых + сапа = АГС почти 100% неоднократно проверял лично в разных вариациях контента и движков.

Редирект 301 ответом при этом тоже не выход практически тот же эффект, проверенно.

Нужно посмотреть чтоб в итоговом контенте не было особых маркерных кодов, или редких уникальных их сочетаний которые будут на ВСЕХ сайтах таким образом созданным, по таким маркерам (похожестям) яндекс со временем обьединяет все подобные сайты в большую сеть с криминальным признаком. И многие могут уйти в баню. Такие примеры уже были типа особого символа возврат каретки на не качественных сканах, проги по созданию готовых сайтов из кучи контента которые оставляли особые теги и.т.п., потом большая часть таких "промаркированных" сайтов уходит сами понимаете куда... Знаю людей которые специально изучали эту тему говнопризнаки-по-маркеру и эксперименты ставили не единичные. В общем по больше отличий старайтесь делать господа товарищи.

А вообще такой парсер вещь интересная? при соответствующей доработке, просто обязан стать платным :)

Subudayj
На сайте с 24.06.2008
Offline
67
#28
Aндрeй:
3) Коды бирж щетчики и прочие легко вставить куда нужно дополнительным софтом рекомендую - Multiple File Replace Она также может без особых телодвижений с вашей стороны повырезать все битые ссылки если они будут внешними - просто вырезаются все куски которые начинаются на <a href='http и заканчиваются на </a> а в место этого в то место ставится например код вывода одной сапоссылки :) Блоки которые хотите убрать со всех тысяч страниц статичной версии сайта также Multiple File Replace в помощь.

1) Вариант не нравитя лучше без базы, статику...

2)


А как именно они перезаписываются? Оптимально мне кажется в рамках одного года (или на выбор всего периода) берется самая древняя дата - выкачивается, потом более раньняя выкачивается и накладывается поверх старой (перезаписывает ее) и.т.д. В результате имеем самую последнюю версию сайта, но если в ней отсутствуют страницы которые были в архиве в других датах то они тоже будут в финальной версии.

Особо хочу обратить внимание на то что с битыми ссылками надо точно чего то решать, много битых + сапа = АГС почти 100% неоднократно проверял лично в разных вариациях контента и движков.
Редирект 301 ответом при этом тоже не выход практически тот же эффект, проверенно.

Нужно посмотреть чтоб в итоговом контенте не было особых маркерных кодов, или редких уникальных их сочетаний которые будут на ВСЕХ сайтах таким образом созданным, по таким маркерам (похожестям) яндекс со временем обьединяет все подобные сайты в большую сеть с криминальным признаком. И многие могут уйти в баню. Такие примеры уже были типа особого символа возврат каретки на не качественных сканах, проги по созданию готовых сайтов из кучи контента которые оставляли особые теги и.т.п., потом большая часть таких "промаркированных" сайтов уходит сами понимаете куда... Знаю людей которые специально изучали эту тему говнопризнаки-по-маркеру и эксперименты ставили не единичные. В общем по больше отличий старайтесь делать господа товарищи.

А вообще такой парсер вещь интересная? при соответствующей доработке, просто обязан стать платным :)

Андрей, спасибо за предложения, попробую учесть. Релиз новой версии откладывается до выходных - появилось еще несколько идей, которые хотелось бы реализовать.

BarSook
На сайте с 23.08.2010
Offline
66
#29

Сграбил сайтец молниеносно, но не полностью, что то из графики было потеряно в процессе работы программы. Если сделать так чтобы скрипт умел составлять наиболее полную копию сайта за все годы, ценнейшая штука вышла бы.

А так, вариант 3 считаю лучшим.

Subudayj
На сайте с 24.06.2008
Offline
67
#30

Друзья, в связи с "ремонтом" веб-архива (ссылка), релиз переносится на день-два, пока веб-архив не заработает в полноценном режиме (пока еще некоторые периоды отдаются с ошибкой).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий