wget конверт ссылок

12
PR
На сайте с 30.12.2007
Offline
93
#11

Вот так:

AddType text/html .cfm .new .news

Где .new и .news - "новый формат"

[Удален]
#12
Rishpik:
спасибо.

а как-нибудь можно все форматы прописать сразу?

то есть не только тот который я дал... но и те которые я ещё сам незнаю

Вообще у вгета есть параметр отвечающий за имя файла

wget -o http://выеофлоифлф.ext

R
На сайте с 23.11.2007
Offline
218
#13
neolord:
Вообще у вгета есть параметр отвечающий за имя файла
wget -o http://выеофлоифлф.ext

можно подробнее?

СДЛ: Строительный журнал | 100 страниц | уникальный дизайн (/ru/forum/577692)
[Удален]
#14

описался я

wget -o blabla.html http://url

любую ссылку сохранит в файл с нужным вам названием и расширением хтмл

R
На сайте с 23.11.2007
Offline
218
#15
neolord:
описался я
wget -o blabla.html http://url
любую ссылку сохранит в файл с нужным вам названием и расширением хтмл

это конечно хорошо. но как быть с 20-30к ссылками на этот док без расширения хтмл?

Cheltap
На сайте с 27.11.2008
Offline
30
#16
Rishpik:
это конечно хорошо. но как быть с 20-30к ссылками на этот док без расширения хтмл?

Rishpik, напишите точную команду которой вы скачивали сайт,

и сайт этот, желательно, укажите, на всякий случай

(в личку, как вариант)

там, похоже, каких-то опций не хватает,

потом надо будет ещё раз стягивать,

т.к. переконвертить всё это некорректно стянутое хозяйство может оказаться сложней

R
На сайте с 23.11.2007
Offline
218
#17
Cheltap:
Rishpik, напишите точную команду которой вы скачивали сайт,
и сайт этот, желательно, укажите, на всякий случай
(в личку, как вариант)
там, похоже, каких-то опций не хватает,
потом надо будет ещё раз стягивать,
т.к. переконвертить всё это некорректно стянутое хозяйство может оказаться сложней

ушло в лс :)

[Удален]
#18
Rishpik:
это конечно хорошо. но как быть с 20-30к ссылками на этот док без расширения хтмл?

записываем ссылки в файл по одной на строке, врубаем баш, кладем файлик в отдельную папку и делаем так


for i in `cat links.txt` do;
wget $i
done;
rm -f links.txt #файл убьется
mv * *.html

Насчет точек с запятой не уверен, давно это было

хотя и без этих извращений вроде wget умеет сохранять линки по списку. кажется

wget -i links.txt

А еще гениальней параметр -E


-E, --html-extension save HTML documents with `.html' extension.

итого получаем wget -E -i links.txt

более того можно в качестве входного файла передавать .html и указывать параметр -F, тогда wget все hrefы выдерет и скачает, только надо еще -B указать - базовый урл для относительных ссылок.

wget мощнее чем кажется. да вообще никсовая коммандная строка может делать такое за что здесь люди деньги плотют =) - с помощью grep или awk и wget можно в одну строчку парсеры писать

Cheltap
На сайте с 27.11.2008
Offline
30
#19
neolord:
wget мощнее чем кажется. да вообще никсовая коммандная строка может делать такое за что здесь люди деньги плотют =) - с помощью grep или awk и wget можно в одну строчку парсеры писать

полностью подтверждаю!

так что приведённый только что код на shell здесь не нужен,

вот - одна команда:

wget --random-wait -r -l inf -k -K -E -e robots=off http://site.ru/

только что проверил её на одном своём сайте, т.к. тот, что вы привели в личку очень велик,

команда отработала и я получил копию сайта со всеми картинками и т.д.,

пригодную для локального просмотра,

ну и на сайт, разумеется можно эту копию выложить теперь...

Важное замечание: wget в данном случае ключевые преобразования выполнит только в самом

конце, когда скачает всё от и до. Так что если вы остановите команду и посмотрите - преобразовывает ли он в html-коде href'ы корректно, то увидите что НЕТ, не преобразовывает (на лету), но вы дождитесь просто - в конце он это сделает.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий