КАК массово скачать НТМЛ страницы?

12
makclit
На сайте с 08.09.2008
Offline
124
1030

Всем привет

Подскажите, как можно полегче массово скачать Веб-страницы по списку УРЛ ?

V
На сайте с 30.11.2010
Offline
92
#1

Teleport Pro в помощь

Vladimir SEO
На сайте с 19.10.2011
Offline
1705
#2

Так же контент даунлоадер ещё есть

Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/
LEOnidUKG
На сайте с 25.11.2006
Offline
1722
#3

Список в list.txt

И командой:

wget.exe -i list.txt -l1 -k -E -p --max-redirect=1 -np --user-agent="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.2228.0 Safari/537.36"

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
Segey
На сайте с 23.08.2005
Offline
404
#4

<?php

$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Разнообразить топик что ли...

---------- Добавлено 30.10.2018 в 12:55 ----------

LEOnidUKG:
list.txt

Протестую "url_list.txt" логичнее, неизвестно еще какие "листы" придет в голову складировать в той же папке.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
R
На сайте с 30.10.2018
Offline
1
#5
voltest:
Teleport Pro в помощь

Рекомендую - хороший вариант.

makclit
На сайте с 08.09.2008
Offline
124
#6
LEOnidUKG:
Список в list.txt

И командой:
wget.exe -i list.txt -l1 -k -E -p --max-redirect=1 -np --user-agent="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.2228.0 Safari/537.36"

Где должен list.txt лежать???

Команду в пуске запускать и куда страницы упадут?

---------- Добавлено 30.10.2018 в 14:26 ----------

<?php
$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Тут типа надо сделать РНР файлик... залить и запустить его и странички упадут в ту папку где он будет лежать?

S
На сайте с 30.09.2016
Offline
469
#7

Спарсить curl-ом через прокси.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
S
На сайте с 04.02.2007
Offline
318
svv
#8
Segey:
<?php

$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Разнообразить топик что ли...

И на сколько страниц хватит такого скрипта?

Как быстро сдохнет?

На днях нужно было спарсить ооочень много товаров с одного интернет-магазина.

Так, чтобы не перегружать, открывал каждую страничку отдельно раз в 5 секунд, разбрасывал данные по переменным и в удобоваримом виде в базу -> 3 дня ушло на запросы разв 3 секунды.

Segey
На сайте с 23.08.2005
Offline
404
#9
svv:
И на сколько страниц хватит такого скрипта?
Как быстро сдохнет?

Как php настроен...

makclit:
Тут типа надо сделать РНР файлик... залить и запустить его и странички упадут в ту папку где он будет лежать?

Ну установить php, вы же про Teleport Pro не спрашивали ставить или нет, а тем более не спрашивали - куда в нем скопировать свой список. А уж тем более, на каком языке в нем писать. А тут столько вопросов....

L
На сайте с 25.12.2013
Online
314
#10
Segey:
<?php
$list = file('url_list.txt');
foreach($list as $k=>$url){
$t = file_get_contents($url);
file_put_contents($k.".html", $t);
}
?>

Для такого скрипта урлы должны быть без .html на конце, иначе сохранятся файлы с .html.html на концах, но работать все равно будет. Можно еще дописать, чтобы урлы удалялись из списка по мере сохранения страниц и скрипт придется перезапускать несколько раз или поставить на крон.

Недорогой, надежный и отзывчивый VPS хостинг ( https://bit.ly/3eXUnNN ) Проверенная пуш партнерка с ежедневными выплатами ( https://vk.cc/9wLSrL)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий