Регуляркой вытащить "тэг"

117

=Lexx=

21 марта 2011, 18:37

782

Помогите регулярными выражениями вытащить "тэги":

культура

питер

Язык - php


<div class="asset-tags"><h4 class="asset-tags-header page-header-4">Tags:</h4>

<ul class="asset-tags-list">

 <li class="item"><a rel="tag" href="http://ЖЖюзер.livejournal.com/tag/%D0%BA%D1%83%D0%BB%D1%8C%D1%82%D1%83%D1%80%D0%B0">культура</a>, </li><li class="item"><a rel="tag" href="http://ЖЖюзер.livejournal.com/tag/%D0%BF%D0%B8%D1%82%D0%B5%D1%80">питер</a></li>

</ul>

</div>

456

[umka]

21 марта 2011, 18:44

#1

if (preg_match_all("#livejournal.com/tag/[^>]+>([^<+])</a>#",$data,$regs)) {

  print_r($regs);

}

Лог в помощь!

117

=Lexx=

21 марта 2011, 19:05

#2

'[umka:
;8701579']

if (preg_match_all("#livejournal.com/tag/[^>]+>([^<+])</a>#",$data,$regs)) {

  print_r($regs);

}

не выходит :(((

http://seo-storm.ru/regexp/

456

[umka]

21 марта 2011, 19:14

#3

Сорри, пальцы в кнопках запутались

if (preg_match_all("#livejournal.com/tag/[^>]+>([^<]+)</a>#",$data,$regs)) { 

  print_r($regs); 

}

A

20

asdqwe

21 марта 2011, 19:15

#4

вместо [^<+] напишите [^<]+

117

=Lexx=

21 марта 2011, 19:26

#5

'[umka:
;8701720']Сорри, пальцы в кнопках запутались

if (preg_match_all("#livejournal.com/tag/[^>]+>([^<]+)</a>#",$data,$regs)) { 

  print_r($regs); 

}

Так работает, но вытаскиваются все "тэги" со страницы. Как ограничить только тэгами к данной записи?

В верхней textarea содержимое $data

http://seo-storm.ru/regexp/

http://seo-storm.ru/regexp/example.html

456

[umka]

21 марта 2011, 20:05

#6

if (preg_match_all('#<a rel="tag"[^>]+>([^<]+)</a>#',$data,$regs)) {  
  print_r($regs);  
}

A

20

asdqwe

21 марта 2011, 20:38

#7

=Lexx=:
Как ограничить только тэгами к данной записи?

надо вставить в regexp ограничитель данной записи, который, на самом деле, зависит от используемого в жж шаблона.

а Вам точно надо парсить жж, там же по идее какой-то rss-фид должен быть, может быть даже с тэгами?

Google добавил разметку для Джон Мюллер рассказал, как Яндекс открыл поиск по

117

=Lexx=

21 марта 2011, 20:42

#8

Спасибо, с помощью [umka] разобрался.

рсс-фида, к сожалению уже нет.

так что заодно и в пхп тренируюсь, с парсерами разбираюсь.

A

20

asdqwe

21 марта 2011, 20:56

#9

=Lexx=:
рсс-фида, к сожалению уже нет.

Вы парсите html из web.archive.org? :)

Если нет - надо к имени существующего журнала дописать /data/rss и парсить это...

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Переиграть и победить: как анализировать конкурентов для продвижения сайта