Вопрос по регулярным выражениям в PHP

T

145

Tempter

27 ноября 2008, 12:35

835

Дано:

строка = <a><c>34</c>534</a>23

Надо выдрать 534, условие чтобы была вложенность a\b. Т.е. 23 уже не в a, поэтому оно не надо.

Регулярка:

/<a>[^<\/a>](\d+)/i

Проблема в том что [] - это символьный класс, т.е. мы будем искать любой из перечисленных символов, а мне надо чтобы он конкретную фразу нашел, т.е. конкретную последовательность символов. И если этой фразы нет, то всё норм и б на самом деле вложено в а, и это число нам надо )))

Как это делать? )))

Tempter добавил 27.11.2008 в 15:46

забыл сказать что это PCRE, т.е. регулярка для preg_match )))

DI

123

DenIT

27 ноября 2008, 13:20

#1

#<a>.*?(.+?)<\/b><\/a>#is

самый прямолинейный, но работающий способ:)

Высказывание идиотского утверждения требует на порядок меньше усилий, чем его последовательное и обоснованное опровержение и более того, иногда это опровержение вообще невозможно. © (http://zhurnal.lib.ru/s/shapiro_m_a/raspidiota.shtml)

T

145

Tempter

27 ноября 2008, 13:34

#2

хм, я думал о таком варианте но чо-та стреманулся )))

если строка будет такая:

и скрипт соответственно:

preg_match_all('/<a>.*?(.+?)<\/b><\/a>/i', $string, $matches);

поймаются ли 534 и 643, или нет? )))

и если да, то помоему он всё-таки схавает и 23 )))

DI

123

DenIT

27 ноября 2008, 13:38

#3

нет, вообще ничего не поймается в таком случае, точнее поймается '534<d>234</d>643'

чего выдернуть-то надо?:) одно значение или несколько?

36

zhidronsss

27 ноября 2008, 13:43

#4

будет работать-

CE

73

CHEM_Eugene

27 ноября 2008, 13:44

#5

Xpath: //a/b

DI

123

DenIT

27 ноября 2008, 13:49

#6

zhidronsss, если нужно только одно значение, то будет работать и без промежуточных тегов:

Все, как только закрылся - срабатывает жадность и регулярка заканчивается.

N

419

netwind

27 ноября 2008, 14:31

#7

обрабатывать регулярными выражениями HTML - крайне унылое занятие. в XXI веке все это делается через XPath.

одна проблема - некоторые старые документы представляют из себя неправильный XML и приходится прибегать к ухищрениям.

Кнопка вызова админа ()

Google Spreadsheets дополнен новыми Наши сайты перестанут индексироваться CPA сеть AdmitAd.com |

36

zhidronsss

27 ноября 2008, 14:44

#8

<a>.*?(.+?)<\/b> -отличное компактное решение

<a>.*?<c>.*?<\/c>.*?([\d]+)<\/b>.*?<\/a>.*?.*?<\/b> -наглядное решение

DI

123

DenIT

27 ноября 2008, 14:56

#9

netwind:
одна проблема - некоторые старые документы представляют из себя неправильный XML и приходится прибегать к ухищрениям.

Я бы сказал, подавляющее большинство html-страниц, особенно эволюционирующих в процессе жизни (навешивание всякой фигни в макеты и т.п.) - представляют из себя абсолютно неправильный XML. И Xpath (имхо, конечно же) тут будет смотреться совсем не к месту, html и xml - это разные вещи.

Яндекс кобласит Упал доход Adsense Как избавиться от внутреннего

N

419

netwind

27 ноября 2008, 15:11

#10

DenIT, не знаю чем вы пользуетесь, но некоторые реализации XPath не спотыкаются от неправильного XML. Некоторые блоки документа парсер просто проигнорирует :

B

D

F

кто сможет здесь выбрать строку "D" через Xpath ?

Я так и не смог. поэтому применяю комбинированное решение : xpath + регулярные выражения. Мне кажется так проще.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Переиграть и победить: как анализировать конкурентов для продвижения сайта