Регулярка для всех видов ссылок

1101

Dram

12 мая 2019, 14:25

321

Продолжаю учить пхп, дошел до регулярок и там такое задание - получите все ссылки и анкоры из примера

Мой код

$re = '~<a(.*)href(.*)=(.+)([^\"]*)>(.*)<\/a>~m';
$str = '<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>парсинг</title>
<link rel="stylesheet" type="text/css" href="css/styles.css">
<script src="/js/scripts.js"></script>
</head>
<body>
<a class="www" href=\\\'test1.php\\\' > ссылка 1</a>
<a href=\\\'test2.php\\\' class="www"> ссылка 2</a>
<p>Это абзац!</p>
<a href = "test3.php" >ссылка 3</a>
<p>
<a id="test" href="http://site.ru/test4.php">ссылка 4 </a>
</p>
<p class="www">Это <b>абзац!</b></p>
<a href="test5.php">ссылка 5 </a>
<a href="test6.php" class = "www" >с сы лка 6</a>
</body>
</html>';

preg_match_all($re, $str, $matches, PREG_SET_ORDER, 0);

// Print the entire match result
var_dump($matches);

В итоге анкоры все правильно вытащил, а ссылки уже второй день не могу все корректно без мусора вытащить. Подскажите плиз идеальную регулярку?

1723

LEOnidUKG

12 мая 2019, 14:27

#1

дошел до регулярок

не хило так... эти вещи можно месяцами изучать.

2

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/

775

edogs software

12 мая 2019, 16:21

#2

Dram,

Как вариант

$re = '~<a[^>]+href.*?=.*?(?:"|\')(.*?)(?:"|\').*?>(.*?)<\/a>~siu';

Но имейте ввиду на будущее важный нюанс, регулярки для этой цели годятся так себе, одной регуляркой крайне сложно разобрать даже корректный хтмл, а некорректный невозможно в принципе.

Поэтому все решения вида "регуляркой вытаскиваем все ссылки" расчитаны в целом именно на "конкретный пример" (или их набор), шаг влево - шаг вправо - оппаньки.

1

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft

361

Samail

12 мая 2019, 16:35

#3

~<a.*?href.*?=.*?(?:'|")([^\\]+?)\\*?(?:'|").*?>(.*?)<~mi

Не сказать что идеальная, но для данного примера сгодится

1

1723

LEOnidUKG

12 мая 2019, 16:58

#4

Не ребята, вы все молодцы конечно, но вы думаете ТС что-то хоть понял из ваших закорючек? :)

D

1101

Dram

12 мая 2019, 16:59

#5

Леня, я понял примерно 90%, мне пока хватит

775

edogs software

12 мая 2019, 17:18

#6

LEOnidUKG:
Не ребята, вы все молодцы конечно, но вы думаете ТС что-то хоть понял из ваших закорючек? :)

Good point.

Dram, https://regexr.com/ и https://regexper.com Вам помогут разобраться с готовыми выражениями.

1

D

1101

Dram

12 мая 2019, 17:24

#7

https://regex101.com мне этот понравился

S

469

Sitealert

12 мая 2019, 17:27

#8

...

Проехали... ТС это уже знает (regex101.com).

1

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Google: E-E-A-T не является фактором ранжирования