Вебархив не скачает. Попробуйте пофильтровать трафик с помощью javascript, чтобы вырезать из закачиваемых страниц налету - Доменные имена

264

_VOLDEMAR_

8 марта 2009, 13:13

#21

pinkponk:
а где там вообще кнопка скачать?

....рядом с кнопкой "Бабло"

[Удален]

8 марта 2009, 13:17

#22

_VOLDEMAR_:
...рядом с кнопкой "Бабло"

самый остроумный что ли?

R

218

Rishpik

8 марта 2009, 15:15

#23

_VOLDEMAR_:
....рядом с кнопкой "Бабло"

Валерий..... тоже хоетл так написать :) читаете мысли.

Rishpik добавил 08.03.2009 в 18:15

pinkponk:
самый остроумный что ли?

типо да...............

Rishpik добавил 08.03.2009 в 19:28

короче говоря.... вэб архив wget не качает.... пробывал все команды :( и даже Бума :(

Rishpik добавил 08.03.2009 в 19:28

другие сайты качает норм.

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)

_

148

_interceptor_

9 марта 2009, 13:23

#24

Rishpik:
Бума способ представления не роботом не прокатит? А.... точнее он прокатить но не рекурсивно... а чем собственно различия от полного миррора и рекурсивного скачивания?

Rishpik добавил 08.03.2009 в 01:18
а ещё... как посмотреть сколько страниц есть в вэб архиве для данного сайта? (последнее сохранение).

bums все правильно написал, только качаться вебархив все равно не будет, поскольку

у них стоит защита от скачивания - javascript вырезает часть url-ов, а роботы javascript

не интерпретируют:


<head>
<BASE HREF="http://www.anglija.ru.way_back_stub/">
...

А потом мутят javascript

        
 var sWayBackCGI = "http://web.archive.org/web/20080112014047/";

...

    url = url.replace('.way_back_stub','');
    aCollection[sProp] = sWayBackCGI + url;

Что касается количества страниц, то пока не пройдешь по ссылкам не поймешь.

Все ссылки на странице - редиректы по всей видимости на последнюю версию

страницы.

ИМХО - надо писать самому обходчик, под свою задачу...

Правило трех благ для бизнеса: благо для компании, благо для клиента, благо для всего общества в целом.

R

218

Rishpik

9 марта 2009, 13:36

#25

_interceptor_... то есть wget пролетает?

более вариантов нет... кроме собственной разработки?

собственную долго да и т3 нет.

432

moldu

9 марта 2009, 13:49

#26

Renegade:
На всякий случай кину, может кто не знает: http://web.archive.org/web/*/site.com/*

Самый оптимальный способ: с его помощью создаем список для загрузки и качаем по нему любым офлайн браузером, потом скаченное чистим ручками и с помощью утилит массовой замены текста.

Глаза боятся, а руки-крюки.

658

pegs

9 марта 2009, 13:57

#27

Rishpik, а что Вам не воспользоваться примитивной программкой на Perl-е с использованием WWW::WebArchive?


use WWW::WebArchive;



my $webarchive = WWW::WebArchive->new();

$webarchive->restore( { url => "http://" . $ARGV[0] } );

Основную функцию выполняет. Какая экзотика - всегда можно адаптировать (модуль) под себя. Почему обязательно wget?..

pegs:
Есть неплохой модуль на ПЕРЛе: WWW::WebArchive. Требует небольших доработок (по желанию) и достаточно неплохо справляется с выгрузкой из Веб-архива сайта со всей его структурой и т.п. Я иногда юзаю, меня вполне устраивает :)

«Палата номер 6» ищет своего Главврача: https://www.palata6.ru/

_

148

_interceptor_

9 марта 2009, 13:58

#28

Rishpik:
_interceptor_... то есть wget пролетает?

более вариантов нет... кроме собственной разработки?

собственную долго да и т3 нет.

Если сосредоточится на wget, то можно попробовать пофильтровать

трафик и вырезать из закачиваемых страниц 'BASE HREF=' налету,

к примеру с помощью nc хитро завернуть трафик через sed.

Мне, помню, так удалось заголовки подменить,

но я потратил на это кучу времени и сейчас не повторю. :(

Может, кто посоветует еще что можно сделать или прогу погибче чем wget.

Если бы wget отдавал список url к закачке вместо их обхода, то

можно было бы редактировать этот список и подсовывать опять wget.

Т.е. получилось бы что-то полуавтоматическое.

R

218

Rishpik

9 марта 2009, 14:02

#29

moldu:
Самый оптимальный способ: с его помощью создаем список для загрузки и качаем по нему любым офлайн браузером, потом скаченное чистим ручками и с помощью утилит массовой замены текста.

любым? а тот же вгет не скачает? :)

432

moldu

9 марта 2009, 14:44

#30

Rishpik:
любым? а тот же вгет не скачает?

Вгет не пробовал, но наверное и он подойдет, просто браузером удобнее. Обычно пользуюсь Offline Explorer, в нем можно все прекрасно настроить: глубину скачивания, форматы скачиваемых файлов, количество потоков, ограничения на размер, скачивание из определенной папки/сервера/урла и многое другое.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Ограничения на скачку у вэб архива