КАК массово скачать НТМЛ страницы?

12
makclit
На сайте с 08.09.2008
Offline
124
1000

Всем привет

Подскажите, как можно полегче массово скачать Веб-страницы по списку УРЛ ?

V
На сайте с 30.11.2010
Offline
92
#1

Teleport Pro в помощь

X
На сайте с 19.10.2011
Offline
1009
#2

Так же контент даунлоадер ещё есть

Продвижение коммерческих сайтов https://kulinenko.com Проверка позиций http://allpositions.ru/redirect/10965 Лучший хостинг http://www.ukraine.com.ua/?page=59418
LEOnidUKG
На сайте с 25.11.2006
Offline
1550
#3

Список в list.txt

И командой:

wget.exe -i list.txt -l1 -k -E -p --max-redirect=1 -np --user-agent="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.2228.0 Safari/537.36"

✅ Трастовых площадок под размещение статей и ссылок. Опыт 12 лет! ( https://searchengines.guru/ru/forum/675690 ) ⭐ Купить вечные трастовые ссылки для сайта ( https://getmanylinks.ru/?srh ) ⭐ Ускорение ваших сайтов (WP, Opencart и др.) + Настройка сервера ( https://searchengines.guru/ru/forum/997205 )
Segey
На сайте с 23.08.2005
Offline
404
#4

<?php

$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Разнообразить топик что ли...

---------- Добавлено 30.10.2018 в 12:55 ----------

LEOnidUKG:
list.txt

Протестую "url_list.txt" логичнее, неизвестно еще какие "листы" придет в голову складировать в той же папке.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
R
На сайте с 30.10.2018
Offline
1
#5
voltest:
Teleport Pro в помощь

Рекомендую - хороший вариант.

makclit
На сайте с 08.09.2008
Offline
124
#6
LEOnidUKG:
Список в list.txt

И командой:
wget.exe -i list.txt -l1 -k -E -p --max-redirect=1 -np --user-agent="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.2228.0 Safari/537.36"

Где должен list.txt лежать???

Команду в пуске запускать и куда страницы упадут?

---------- Добавлено 30.10.2018 в 14:26 ----------

<?php
$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Тут типа надо сделать РНР файлик... залить и запустить его и странички упадут в ту папку где он будет лежать?

S
На сайте с 30.09.2016
Offline
459
#7

Спарсить curl-ом через прокси.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
S
На сайте с 04.02.2007
Offline
303
svv
#8
Segey:
<?php

$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Разнообразить топик что ли...

И на сколько страниц хватит такого скрипта?

Как быстро сдохнет?

На днях нужно было спарсить ооочень много товаров с одного интернет-магазина.

Так, чтобы не перегружать, открывал каждую страничку отдельно раз в 5 секунд, разбрасывал данные по переменным и в удобоваримом виде в базу -> 3 дня ушло на запросы разв 3 секунды.

Segey
На сайте с 23.08.2005
Offline
404
#9
svv:
И на сколько страниц хватит такого скрипта?
Как быстро сдохнет?

Как php настроен...

makclit:
Тут типа надо сделать РНР файлик... залить и запустить его и странички упадут в ту папку где он будет лежать?

Ну установить php, вы же про Teleport Pro не спрашивали ставить или нет, а тем более не спрашивали - куда в нем скопировать свой список. А уж тем более, на каком языке в нем писать. А тут столько вопросов....

L
На сайте с 25.12.2013
Offline
270
#10
Segey:
<?php
$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Для такого скрипта урлы должны быть без .html на конце, иначе сохранятся файлы с .html.html на концах, но работать все равно будет. Можно еще дописать, чтобы урлы удалялись из списка по мере сохранения страниц и скрипт придется перезапускать несколько раз или поставить на крон.

Недорогой, надежный и отзывчивый VPS хостинг (http://goo.gl/sSkvjr) Нужно быстро и недорого вывести крипту? Легко! (http://goo.gl/yi4LRb)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий