Регулярные выражения

18

Sillys

19 марта 2015, 16:07

491

Доброго времени суток.

Помогите составить регулярное выражение. Я парсю контент страницы, нужно получить все внутренние ссылки сайта из контента страницы.

Заранее благодарен =)

427

siv1987

19 марта 2015, 16:22

#1

#<a[^>]+?href=["\'](\S*?)["\'][^>]*>(.*?)</a>#

456

[umka]

19 марта 2015, 16:35

#2

siv1987, ТС хочет только внутренние :)

Кстати, вы тоже ощущаете нехватку парсеров в интернете? )

Лог в помощь!

1609

SeVlad

19 марта 2015, 17:03

#3

[umka:
вы тоже ощущаете нехватку парсеров в интернете? )

Особенно не хватает поисковых систем :)

И это не шутка

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

R

59

rereg

19 марта 2015, 19:01

#4

Одной регуляркой не обойтись.


$host = "www.test.ru";

$links = array();

$content = preg_replace(array("#<!--[\s\S]+?-->#", "#<script[\s\S]+?</script>#i"), "", file_get_contents("http://www.test.ru"));

if (preg_match_all("@<a\s([^>]*)?href\s*=\s*[\"']?([^#>'\"\s]*)[\"']?([^>]*)?>@i", $content, $matches)) {



	// убираем www

	if (strpos($host, "www.") === 0)

		$host = substr($host, 4);



	foreach ($matches[2] as $n => $href) {

		// атрибуты тега, если надо парсить

		$attr = $matches[1][$n]." ".$matches[3][$n];

		

		if (empty($href))

			continue;

		

		// не парсим протоколы

		if (preg_match("#^(mailto|skype|magnet|ftp):#i", $href))

			continue;

		

		// абсолютная ссылки

		if (preg_match("#^(https?:)?//(www\.)?([^/]+)(/.*)?$#", $href, $match)) {

			if (strcmp($host, strtolower($match[3])) !== 0)

				continue;

			$href = $match[4];

		}

		

		// если относительная не начинается с "/"

		if (strpos($href, "/") !== 0)

			$href = "/".$href;

		

		//$links[] = $href." | ".$matches[0][$n];

		$links[] = "http://".$host.$href;

	}

}

print_r($links);

S

18

Sillys

20 марта 2015, 09:33

#5

rereg:
Одной регуляркой не обойтись.


$host = "www.test.ru";

$links = array();

$content = preg_replace(array("#<!--[\s\S]+?-->#", "#<script[\s\S]+?</script>#i"), "", file_get_contents("http://www.test.ru"));

if (preg_match_all("@<a\s([^>]*)?href\s*=\s*[\"']?([^#>'\"\s]*)[\"']?([^>]*)?>@i", $content, $matches)) {



	// убираем www

	if (strpos($host, "www.") === 0)

		$host = substr($host, 4);



	foreach ($matches[2] as $n => $href) {

		// атрибуты тега, если надо парсить

		$attr = $matches[1][$n]." ".$matches[3][$n];

		

		if (empty($href))

			continue;

		

		// не парсим протоколы

		if (preg_match("#^(mailto|skype|magnet|ftp):#i", $href))

			continue;

		

		// абсолютная ссылки

		if (preg_match("#^(https?:)?//(www\.)?([^/]+)(/.*)?$#", $href, $match)) {

			if (strcmp($host, strtolower($match[3])) !== 0)

				continue;

			$href = $match[4];

		}

		

		// если относительная не начинается с "/"

		if (strpos($href, "/") !== 0)

			$href = "/".$href;

		

		//$links[] = $href." | ".$matches[0][$n];

		$links[] = "http://".$host.$href;

	}

}

print_r($links);

Спасибо вам за помощь! Вроде всё работает, я конечно его доработал немного чтобы дублей не было и чтобы не собирал ссылки типа javascript:, #

12

Chaser support

20 марта 2015, 11:05

#6

Sillys:
Спасибо вам за помощь! Вроде всё работает, я конечно его доработал немного чтобы дублей не было и чтобы не собирал ссылки типа javascript:, #

Не забудь еще mailto, skype и якоря, типа <a name>

Chaser (http://chaser.ru) - сервис увеличения телефонной конверсии

S

18

Sillys

20 марта 2015, 11:12

#7

Chaser support:
Не забудь еще mailto, skype и якоря, типа <a name>

В том примере кода это есть:


// не парсим протоколы

if (preg_match("#^(mailto|skype|magnet|ftp):#i", $href))

	continue;

R

59

rereg

20 марта 2015, 15:34

#8

Этот пример нельзя считать готовым решением, написан на коленке за 15 минут. Если углубится в тему 10 строками кода не обойтись.

Многое не учтено, к примеру тег base и относительные пути когда присутствуют двоеточие "/../path/index.html".

Еще есть такие форматы ссылок: tel|callto:

Помогите, плс, приклеить новый Ваш первый доллар/рубль в Опытный копирайтер на деле

S1

79

Stan_1

22 марта 2015, 10:53

#9

Подобный парсер нет смысла писать самому, поскольку как уже выше писали - есть много интересных кейсов, все из которых предусмотреть сложно. Ведь есть еще и относительные ссылки, без домена, которые надо дополнять доменом.

Лучше или использовать DOM несмотря на скорость, либо искать парсеры готовые в виде библиотек.

Учусь парсить нужны советы ProfiTraf - профессиональная монетизация Подсчёт кликов по позициям

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что такое Power BI и зачем это нужно бизнесу