Как собрать внутриние ссылки сайта?

12
towww
На сайте с 24.10.2012
Offline
6
#11
Dos3:
могу дать скрипт который регуляркой со всех страниц в папке выдернит то что тебе нужно, а страницы можешь спарсить телепортом

а мне можно?? 🙄

моя домашняя пага это блог начинающего дорвейщика. заходите, размещайтесь.
Dos3
На сайте с 07.01.2011
Offline
363
#12
towww:
а мне можно??

можно :)

кидай строки что собрать нужно, дам регулярку


<?php
set_time_limit(0);

$set = 2;//1 - заменить удалить, 2 - собрать
$out = "out";//папка с файлами

$reg1 = "#<a href=\"/(id[0-9]*)\">#U";//найти
$reg2 = "<a href=\"/$1.html\">";//на что заменить(если нужно)

$arr_file = scandir($out);

foreach($arr_file as $val){

if($val != "." and $val != ".."){

$str = file_get_contents("$out/$val");

if($set===1)
{
$str = preg_replace($reg1,$reg2,$str);

if(!file_exists("result")) mkdir("result");

file_put_contents("result/$val",$str);
}
if($set===2)
{
if(preg_match_all($reg1,$str,$arr_lines))
{
foreach($arr_lines[0] as $val2)
{
file_put_contents("result.txt",$val2."\r\n",FILE_APPEND);
}
}
}
}
}
?>

ps можно конечно и подпапки добавить, но имхо телепорт в одну всё умеет скидывать

zennomen
На сайте с 24.12.2011
Offline
26
#13

}
}
}
}
}
?>

Эта пять... :)

АПАЧ МНОГОПОТОЧЕН НА МОЕМ АТЛОНЕ! Не знаю пэХАпэ...
bliiiiiiiiina
На сайте с 13.09.2009
Offline
202
#14
alarm:
Я вижу тут любят простые решения. Если xml-карта уже есть, то зачем предпринимать еще какие-то действия?

А вы легких путей не ищите?

Еще можно плагином ScrapBook от FireFox собрать все ссылки. 🙄

[Удален]
#15

Dos3, вот если бы написали скрипт-паук, который облазит все страницы сайта в поисках внутренних ссылок, проверяет на наличие дублей и скидывает результат в файлик - цены бы вам не было ;)

bliiiiiiiiina:
Еще можно плагином ScrapBook от FireFox собрать все ссылки

Неа, не сделаешь это скрэпбуком (при всём уважении к вам...:))

bliiiiiiiiina
На сайте с 13.09.2009
Offline
202
#16
sasha_123:
Неа, не сделаешь это скрэпбуком (при всём уважении к вам...:))

Да вы правы, много гемороя. Но если сильно захотеть то можно выпарсить весь сайт или подождать пока плагин соберет все ссылки и поставить на паузу, а затем пройти по адресу:

C:\Users\username\AppData\Roaming\Mozilla\Firefox\Profiles\username.default\ScrapBook\data\последняя созданная папка

найти файл sb-file2url.txt

и получить ссылки, правда там мусору куча еще...

B
На сайте с 16.03.2010
Offline
35
#17

Тему закрыть можно, купил прогу Content Downloader II - она сразу все сделала..

A
На сайте с 18.10.2007
Offline
125
#18
bliiiiiiiiina:
А вы легких путей не ищите?

А я мало сплю. Из-за этого иногда нахожу в сообщениях то, чего автор не писал и пишу глупости. Исправлюсь когда-нибудь.

Только те, кто предпринимают абсурдные попытки, смогут достичь невозможного.
exarh
На сайте с 28.03.2010
Offline
503
#19

Вот так ключики друг у друга и тырим))

Монетизируй (https://publishers.propellerads.com/#/pub/auth/signUp?ref_id=tnE) свой сайт с выгодой
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий