Регулярка поиска ссылок с заданным доменом

19

Slogger

28 октября 2009, 10:39

933

Нужна регулярка поиска ссылок, ведущих на определенный домен (например на site.ru). Т.е. из текста

aaa <a href="http://portal.com"> x </a> bbb <a href="http://site.ru"> y </a> ccc

должна выцепиться вторая ссылка (ссылок всего две, первая ведет не на интересующий домен).

При этом у тега "a" допускаются отличные от href атрибуты, которые могут содержать самые разные символы, в том числе "<", ">" (может это и некорректно, но мало кто придерживается стандартов).

По icq знакомый предложил вариант регулярки начинающийся так:


<a[^>]+?href\s*=\s*["']?(https?://(?:www\.)$domain[^'"\s]+)

но она обрубит атрибуты, содержащие ">".

Сам пришел к этому:


<a(.*?)\shref\s*=\s*(["'])(?:https?://(?:www\.)?site\.ru.*?)\2(.*?)</a>

но она на входе:


aaa <a href="http://portal.com"> x </a> bbb <a href="http://site.ru"> y </a> ccc

распознает все после "aaa " и до " ccc", потому что (.*?) в начале ругулярки "съест" все от href'а первой ссылки до href'а второй.

Если за основу брать эту регулярку, то запретив в (.*?) вхождение "href" или "</a>" задача будет решена. При этом как запретить вхождение одного символа понятно ([^some_symbol]*?), а как запретить слово неясно ([^(?:word)]*? - сиволы слова воспринимаются как набор, а не как слово, потому что находятся внутри квадратных скобок).

P.S.: определенные допущения уже имеются в приведенном коде, возможно необходимы еще?

S

56

solnikolay

28 октября 2009, 10:57

#1

Slogger:
...но она обрубит атрибуты, содержащие ">".

Дык может тогда использовать не одну регулярку, а выцепить сначала все ссылки, а потом на этот массив наложить фильтр?

S

19

Slogger

28 октября 2009, 11:16

#2

Такое решение тоже рассматривается.

Но конкретно здесь интересно докопаться до решения на регулярках или понять, что его нет или оно неприемлимо.

Курс биткоина превысил $50 тысяч

Маркетинг для шоколадной фабрики. На 34% выше средний чек