Нужен грабер ссылок

84

se_home

6 ноября 2007, 12:55

2401

Нужна какая-то программа, в которую вводишь список урлов, а она сохраняет из этих страниц все ссылки в txt файл, каждую ссылку с новой строки. Может есть уже готовое решение? Подскажите, кто знает...

I

61

Instructor

6 ноября 2007, 13:53

#1

se_home:
Нужна какая-то программа, в которую вводишь список урлов, а она сохраняет из этих страниц все ссылки в txt файл, каждую ссылку с новой строки. Может есть уже готовое решение? Подскажите, кто знает...

на 5м php типа того

	$urls=file("spisok.txt");	

	foreach($urls as $url)

	{

		$content=file_get_contents(trim($url));

		$dom = new DOMDocument;

		if ($dom->loadHTML($content))

  		{

			$as = $dom->getElementsByTagName("a");

			foreach ($as as $a)

			{

                $allurl.=$a->getAttribute('href')."\r\n"; 

			}

		}

	}

	$handle = fopen("endfile.txt", 'w');

	fwrite($handle, $allurl);

84

se_home

6 ноября 2007, 20:21

#2

Instructor, спасибо. Работает!

Только почему-то ошибки выдает. Или так и должно быть?

И еще - как быть в тех случаях, когда надо собрать неактивные ссылки на указанных страницах?

ГА

128

Гайдамака Артем

6 ноября 2007, 20:39

#3

И еще - как быть в тех случаях, когда надо собрать неактивные ссылки на указанных страницах?

weblancer.net

free-lance.ru

82

Jeck

6 ноября 2007, 20:54

#4

А можно вот так... Ещё и ссылки в абсолютные преобразовав.

function correct_link($home_link,$link) {

	if (!preg_match("#^http://#",$link)) {

		$strip_link = preg_replace("#\?.*?$#","",$home_link);

		$home_link = preg_replace("#^(.*/).*?$#","\\1",$home_link);

		preg_match("#^(?:http://)?(.*?)/(.*)/?.*?$#",$home_link,$match);

		if ($link{0} == "?") {

			$link = $strip_link.$link;

		}

		$link = preg_replace("#/.*//#is","/","/".$match[2].$link);

		

		$path = array();

		$pathA = explode('/', $link);

		if (!$pathA[0])

			$path[] = '';

		foreach ($pathA AS $key => $dir) {

			if ($dir == '..') {

				if (end($result) == '..') {

					$path[] = '..';

				} elseif (!array_pop($path)) {

					$path[] = '..';

				}

			} elseif ($dir && $dir != '.') {

				$path[] = $dir;

			}

		}

		if (!end($pathA))

		$result[] = '';

		$path = implode('/', $path);

		

		$link = "http://".$match[1].$path;

	}

	return $link;

}



$url = "http://jeck.ws/";

$page = file_get_contents($url);



preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1) (.*?)\\1 | ([^\s\>]+))'isx",$page,$links);

$links = $links[2];



foreach ($links as $n => $link) {

	$links[$n] = correct_link($url,$link);

}



$links = array_values(array_unique($links));

Мой блог (http://jeck.ru)

I

61

Instructor

7 ноября 2007, 05:58

#5

se_home:

Только почему-то ошибки выдает. Или так и должно быть?

Это не ошибки, это варнинги что html кривой.

se_home:

И еще - как быть в тех случаях, когда надо собрать неактивные ссылки на указанных страницах?

Неактивные это какие?

1762

LEOnidUKG

7 ноября 2007, 06:06

#6

Неактивные это какие?

это которые просто написаны, но не заключены в <a> </a>

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

I

61

Instructor

7 ноября 2007, 06:15

#7

LEOnidUKG:
это которые просто написаны, но не заключены в <a> </a>

По моему это называется УРЛ, а не ссылка. Если надо выбрать все урлы со страницы, то делается это еще проще.

1762

LEOnidUKG

7 ноября 2007, 06:18

#8

Instructor:
По моему это называется УРЛ, а не ссылка. Если надо выбрать все урлы со страницы, то делается это еще проще.

ну вот мне кажеться ТС и нужно все Урлы сграбить со страницы.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot