Скрипт или программа для полной скачки сайтов

123
Ufaweb
На сайте с 03.03.2008
Offline
182
#11
Rishpik:
по шагам плиз... если можно....

Коннектимся по ssh, вводим команду типа

wget -r -t 30 --convert-links --no-parent --page-requisites --relative http://web.archive.org/site.ru/

Может неправильно написал, но смысл думаю понятен.

Rishpik:
а телепорт что за бред добавляет?

Насколько я помню, он иправляет теги img и a на бредочушь типа <img src="1.gif" tppabs="http://****.ru/1.gif" />

R
На сайте с 23.11.2007
Offline
218
#12
Ufaweb:
Коннектимся по ssh, вводим команду типа

Может неправильно написал, но смысл думаю понятен.

Насколько я помню, он иправляет теги img и a на бредочушь типа <img src="1.gif" tppabs="http://****.ru/1.gif" />

спс.

утром попробую.

офф..

Ufaweb видел игру между нашими? :) хороша :)

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)
Ufaweb
На сайте с 03.03.2008
Offline
182
#13
Rishpik:
видел игру между нашими? хороша

Хоккеем никогда не увлекался. А после ночных хороводов в том году с песнопениями "Салавааааат! Чемпиооооон!!!1" вообще какое-то отвращение... :)

R
На сайте с 23.11.2007
Offline
218
#14
Ufaweb:
Хоккеем никогда не увлекался. А после ночных хороводов в том году с песнопениями "Салавааааат! Чемпиооооон!!!1" вообще какое-то отвращение... :)

порвали мы вас :)

за 30 сек забили и сравняли... потом булиты :)

Ufaweb
На сайте с 03.03.2008
Offline
182
#15
Rishpik:
за 30 сек забили и сравняли... потом булиты

Ну и отлично)))

А то второго "чемпионства" я не переживу: в тот раз машину малость покоцали, хады.

R
На сайте с 23.11.2007
Offline
218
#16

вот и поробывал....

ввожу так:

wget -r -l 0 -k http://example.org/

качаю левый сайт все ок.

качаю сайт с вебархива:

Loading robots.txt; please ignore errors.

--2009-02-01 15:29:35-- http://web.archive.org/robots.txt

Reusing existing connection to web.archive.org:80.

HTTP request sent, awaiting response... 200 OK

Length: 460 [text/plain]

Saving to: `web.archive.org/robots.txt'

100%[======================================>] 460 --.-K/s in 0.001s

Rishpik добавил 01.02.2009 в 15:35

помгите плиз..... как скачать?

Rishpik добавил 01.02.2009 в 17:20

понятно.... вгетом архив не скачаешь... точнее сайты с него.... он представляется как работ соотвественно для него есть роботс

тогда вопрос о программе акутален.

телепорт скачал всего 12 файлов... хз чего так мало....

Offline Explorer Enterprise насчитал много.... но вебархив отрубил меня из-за трафика.... кто знает какой там лимит?

Cheltap
На сайте с 27.11.2008
Offline
30
#17
Rishpik:
вот и поробывал....

ввожу так:
wget -r -l 0 -k http://example.org/

А Вы попробуйте так:

wget -m -e robots=off http://www.archive.org/web/web.php

Rishpik:

понятно.... вгетом архив не скачаешь... точнее сайты с него.... он представляется как работ соотвественно для него есть роботс

Смеётесь что ли:)

`wget' - профессиональный инструмент ОС UNIX!

Если даже браузеры глючные умудряются работать с этим сайтом,

то никаких сомнений быть не должно, что и `wget' справится с такой задачей:)

Вместо `-m' (mirror - зеркалировать сайт) можете свои опции поставить,

`-e robots=off' не убирайте.

R
На сайте с 23.11.2007
Offline
218
#18
Cheltap:
А Вы попробуйте так:
wget -m -e robots=off http://www.archive.org/web/web.php



Смеётесь что ли:)
`wget' - профессиональный инструмент ОС UNIX!
Если даже браузеры глючные умудряются работать с этим сайтом,
то никаких сомнений быть не должно, что и `wget' справится с такой задачей:)

Вместо `-m' (mirror - зеркалировать сайт) можете свои опции поставить,
`-e robots=off' не убирайте.

это совершенно точно? так можно обойти роботс.

вебархив не забанит?

сейчас не имею возможности проверить

Cheltap
На сайте с 27.11.2008
Offline
30
#19
Rishpik:
это совершенно точно? так можно обойти роботс.

файл `robots.txt' предназначен для чтения клиентской стороной,

если бы в нём содержались инструкции для управления поведением сервера,

то для клиента он, очевидно, был бы недоступен

Rishpik:
вебархив не забанит?

как я уже сказал, на уровне сервера никакой защитной функции этот файл не выполняет,

но мало ли что там у них другое есть для защиты от скачки, этого не знаю

команду эту я запустил перед тем как здесь опубликовать и несколько файлов она скачала,

после чего я её за ненадобностью остановил

S
На сайте с 28.07.2005
Offline
51
#20

вот бесплатная програмка http://httrack.com/

покупаю уникальные тексты по ремонту
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий