Ограничения на скачку у вэб архива

1 234
_VOLDEMAR_
На сайте с 13.03.2007
Offline
264
#21
pinkponk:
а где там вообще кнопка скачать?

....рядом с кнопкой "Бабло"

[Удален]
#22
_VOLDEMAR_:
...рядом с кнопкой "Бабло"

самый остроумный что ли?

R
На сайте с 23.11.2007
Offline
218
#23
_VOLDEMAR_:
....рядом с кнопкой "Бабло"

Валерий..... тоже хоетл так написать :) читаете мысли.

Rishpik добавил 08.03.2009 в 18:15

pinkponk:
самый остроумный что ли?

типо да...............

Rishpik добавил 08.03.2009 в 19:28

короче говоря.... вэб архив wget не качает.... пробывал все команды :( и даже Бума :(

Rishpik добавил 08.03.2009 в 19:28

другие сайты качает норм.

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)
_
На сайте с 16.07.2006
Offline
148
#24
Rishpik:
Бума способ представления не роботом не прокатит? А.... точнее он прокатить но не рекурсивно... а чем собственно различия от полного миррора и рекурсивного скачивания?

Rishpik добавил 08.03.2009 в 01:18
а ещё... как посмотреть сколько страниц есть в вэб архиве для данного сайта? (последнее сохранение).

bums все правильно написал, только качаться вебархив все равно не будет, поскольку

у них стоит защита от скачивания - javascript вырезает часть url-ов, а роботы javascript

не интерпретируют:


<head>
<BASE HREF="http://www.anglija.ru.way_back_stub/">
...

А потом мутят javascript

        
var sWayBackCGI = "http://web.archive.org/web/20080112014047/";

...

url = url.replace('.way_back_stub','');
aCollection[sProp] = sWayBackCGI + url;

Что касается количества страниц, то пока не пройдешь по ссылкам не поймешь.

Все ссылки на странице - редиректы по всей видимости на последнюю версию

страницы.

ИМХО - надо писать самому обходчик, под свою задачу...

Правило трех благ для бизнеса: благо для компании, благо для клиента, благо для всего общества в целом.
R
На сайте с 23.11.2007
Offline
218
#25

_interceptor_... то есть wget пролетает?

более вариантов нет... кроме собственной разработки?

собственную долго да и т3 нет.

moldu
На сайте с 27.04.2006
Offline
432
#26
Renegade:
На всякий случай кину, может кто не знает: http://web.archive.org/web/*/site.com/*

Самый оптимальный способ: с его помощью создаем список для загрузки и качаем по нему любым офлайн браузером, потом скаченное чистим ручками и с помощью утилит массовой замены текста.

Глаза боятся, а руки-крюки.
pegs
На сайте с 07.06.2007
Offline
658
#27

Rishpik, а что Вам не воспользоваться примитивной программкой на Perl-е с использованием WWW::WebArchive?


use WWW::WebArchive;

my $webarchive = WWW::WebArchive->new();
$webarchive->restore( { url => "http://" . $ARGV[0] } );

Основную функцию выполняет. Какая экзотика - всегда можно адаптировать (модуль) под себя. Почему обязательно wget?..

pegs:
Есть неплохой модуль на ПЕРЛе: WWW::WebArchive. Требует небольших доработок (по желанию) и достаточно неплохо справляется с выгрузкой из Веб-архива сайта со всей его структурой и т.п. Я иногда юзаю, меня вполне устраивает :)
«Палата номер 6» ищет своего Главврача: https://www.palata6.ru/
_
На сайте с 16.07.2006
Offline
148
#28
Rishpik:
_interceptor_... то есть wget пролетает?

более вариантов нет... кроме собственной разработки?

собственную долго да и т3 нет.

Если сосредоточится на wget, то можно попробовать пофильтровать

трафик и вырезать из закачиваемых страниц 'BASE HREF=' налету,

к примеру с помощью nc хитро завернуть трафик через sed.

Мне, помню, так удалось заголовки подменить,

но я потратил на это кучу времени и сейчас не повторю. :(

Может, кто посоветует еще что можно сделать или прогу погибче чем wget.

Если бы wget отдавал список url к закачке вместо их обхода, то

можно было бы редактировать этот список и подсовывать опять wget.

Т.е. получилось бы что-то полуавтоматическое.

R
На сайте с 23.11.2007
Offline
218
#29
moldu:
Самый оптимальный способ: с его помощью создаем список для загрузки и качаем по нему любым офлайн браузером, потом скаченное чистим ручками и с помощью утилит массовой замены текста.

любым? а тот же вгет не скачает? :)

moldu
На сайте с 27.04.2006
Offline
432
#30
Rishpik:
любым? а тот же вгет не скачает?

Вгет не пробовал, но наверное и он подойдет, просто браузером удобнее. Обычно пользуюсь Offline Explorer, в нем можно все прекрасно настроить: глубину скачивания, форматы скачиваемых файлов, количество потоков, ограничения на размер, скачивание из определенной папки/сервера/урла и многое другое.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий