Web cache explorer - восстановления сайтов из веб-архива web.archive.org - Сервисы и программы для работы с SE - Практические вопросы оптимизации

81

seomoneys

4 октября 2011, 07:31

12515

Доброго времени суток уважаемые форумчани, хочу предложить вашему вниманию программу восстановления сайтов из веб-архива web.archive.org - Web cache explorer.

Каким функционалом она обладает на данный момент:

- Рекурсивное выкачивания всех найденных страниц из web.archive.org с возможностью выбора даты начала парсинга и фильтрации страниц по дате.

- Все ссылки преобразовываются в относительные, в будущем будет добавлена опционально преобразования.

- Возможность замены произвольной части кода из скаченных страниц(например можно вставить код биржи ссылок после произвольного тега).

- Удаления кода и комментарий вставляемых веб-архивом.

- Возможность сохранения состояния процесса парсинга в файл проекта, для последующей загрузки его.

- Возможность отфильтровать страницы по трем критериям - расширению файла, вхождению указанных строк в адрес url и размеру файла.

- Корректная обработка 19 ответов web.archive.org и информирования пользователя.

- Многопоточность(до 50 потоков).

- Парсинг через прокси-сервер(HTTP(S),socks4,socks5).

- Корректная обработка и сохранения динамических страниц и редиректов(302,301) через mod_rewrite и .htaccess который программа создает автоматически.

- Обработка множества нестандартных ситуаций(url адресов длиной более 254 символов, бесконечных редиректов, директорий, с именем похожих на имя файла(частая ситуация с ЧПУ) и множества других ситуаций).

- Удобный выбор даты начала парсинга, с возможностью предварительного просмотра кол-тва проиндексированных страниц для каждого года и месяца.

Стоимость лицензии составляет 30 wmz на один компьютер, все последующие обновления программы бесплатны, за исключениям дополнительных модулей.

Узнать подробней о процедуре покупки вы сможете по ссылки:Web cache explorer

Batch Domain Tools (https://github.com/w3bstate/batch-domain-tools/releases) - пакетная работа с доменами и субдоменами.

U

116

ufaclub

6 октября 2011, 18:01

#1

00:00:10 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101101/http://b12-club.ru/.

00:00:14 Нет активных потоков, процесс парсинга завершен.

00:00:25 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101101/http://b12-club.ru/.

00:00:26 Нет активных потоков, процесс парсинга завершен.

почему так? находит 112 страниц а скачивать не хочет 😒

почему парсит сайты тока каждый 10? хотя в архиве все есть?

и если ссылки относительные - то почему когда открываю страницу - по ссылка не пройдеш?

Key Collector - автоматизированная Key Collector - автоматизированная Товарная партнерка №1. Комиссия

S

81

seomoneys

7 октября 2011, 05:32

#2

ufaclub:
00:00:10 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101101/http://b12-club.ru/.
00:00:14 Нет активных потоков, процесс парсинга завершен.
00:00:25 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101101/http://b12-club.ru/.
00:00:26 Нет активных потоков, процесс парсинга завершен.

почему так? находит 112 страниц а скачивать не хочет 😒

почему парсит сайты тока каждый 10? хотя в архиве все есть?

Здравствуйте, если какие-то сайты не выкачиваются - скиньте мне их на email я выпушу фикс если он нужен.

По поводу данного сайта - он выкачался у меня без проблем, но на всякий случай скачайте обновления.

ufaclub:

и если ссылки относительные - то почему когда открываю страницу - по ссылка не пройдеш?

Потому что таковы особенности разбора относительных ссылок на локальной машине, залейте файлы на хостинг(или на денвер, XAMPP) и все ссылки будут рабочими. К тому же если ссылки имеют динамических храктер то без преобразования с помощью .htaccess и mod_rewrite они тем более не будут рабочими.

Проблемы с переносом сайта Проблемы с переносом сайта Аукцион. Сайт на тему

S

81

seomoneys

8 октября 2011, 06:36

#3

00:00:10 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101...//b12-club.ru/.
00:00:14 Нет активных потоков, процесс парсинга завершен.
00:00:25 Очередь для загрузки пуста, получаем начальную страницу - http://wayback.archive.org/web/20101...//b12-club.ru/.
00:00:26 Нет активных потоков, процесс парсинга завершен.

почему так? находит 112 страниц а скачивать не хочет

Как выяснилось это внутренние проблемы вебархива, до 10 числа некоторые сайты будут не доступны(вообще это проблема началась раньше 7 числа):

Wayback Machine Scheduled Outage Friday through Sunday
Posted on October 5, 2011 by internetarchive

The Wayback Machine will be offline from Friday evening, October 7, through Sunday, October 9, 2011. We expect the Wayback to be back in service by Monday morning (PST), October 10, 2011.

So, what’s up? Maintenance is being done on the data center and cooling system where a large percent of the Wayback’s content is stored, and we’ll need to shut off the power there for the duration of the work.

We aren’t making any changes to the Wayback Machine. When we power back up some time on Sunday, things should just start working again. If you are seeing any issues with the Wayback on Monday morning (PST), please drop us a note at info at archive dot org.

пруф.

S

81

seomoneys

27 ноября 2011, 19:12

#4

Доброго времени суток уважаемые форумчани, программа Web cache explorer обновилась до версии 2.0.0.21.

Какие существенные изменения произошли:

- Улучшенный алгоритм получения документов. Файлы ресурсов непосредственно сохраняются в файл, без предварительного сохранения их в виртуальной памяти - это позволяет загружать и сохранять файлы, размер которых ограничен только возможностями ОС или размерами дискового накопителя. Нормализации ссылок и удаления вставок веб-архива происходит непосредственно при чтении данных из сокета. Данные оптимизации в значительной степени снизили потребляемые программой ресурсы.

- Улучшенный алгоритм работы с веб-архивом. Программа больше не парсит ссылки со страниц, а собирает файлы, которые наверняка есть в кэше веб-архива. Программа со 100% вероятностью найдет все страницы сайта, которые есть в кэше веб-архива, даже если они никак напрямую не связаны ссылками.

- Возможность указания URI адреса сайта - что позволяет загружать отдельные директории (например, с изображениями).

- Опциональная возможность работы с внешними ссылками (тегом "a"): удаления, вложения в тег   и добавления атрибута rel=nofollow.

- Опциональная возможность указания, какие файлы загружать и возможность указания даты для файлов.

- Опциональная возможность указания начальной или конечной даты (то есть фактически периода).

В Google разработали HTML-атрибут Как использовать preload, prefetch К вопросу использования «noindex»

S

81

seomoneys

8 января 2012, 13:32

#5

Доброго времени суток уважаемые форумчани, хочу представить Вашем вниманию бесплатную программу для массовой проверки доменов на присутствие в кэше веб-архива, а также количества страниц в кэше веб-архива и первую и последнею дату индексной страницы — Web Archive Checker:

Возможности программы:

Многопоточность(до 300 потоков).
Возможность загрузить список сайтов из файла или из буфера обмена.
Возможность сохранить полученный результат в .txt файл(только имена доменов) или .cvs файл(все данные).
Высокая скорость проверки, на 100 потокох ~80-90 доменов в секунду.

Скачать программу можно отсюда. Для нормальной работы необходим Microsoft .NET Framework 3.5.

Также выслушаю пожелания какие еще параметры доменов программа могла бы проверять(кроме Pr и тИЦ).

Яндекс.Директ запустил Директ Коммандер BatchUniqueChecker - новый бесплатный Вышел новый SiteAnalyzer с

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Web cache explorer - восстановления сайтов из веб-архива web.archive.org