Регулярное выражение.

99

Sveta Prokopeva

15 сентября 2006, 16:29

729

От природы не сильна в регулярных выражениях :)

Помогите пожалуйста получить со странички ссылки и тексты к ним

<a...href="qwe.html">text</a>

надо вычленить qwe.html и text

46

!kt0

15 сентября 2006, 16:43

#1

/href="[\w]*">[\w]*</a>/xis (возможно перед ковычками \)

$p=explode('"',$result); - в $p[1] -url

$p=explode('>',$result);

$x=explode('<',$p[1]); - $x[0] - текст ссылки

http://doorway-blog.blogspot.com/2006/08/pars-function.html - функция с регуляркой выдирает ссылки из гугли

http://seorepa.com/ (http://seorepa.com/) - блог был там, пока не запилили mchost

99

Sveta Prokopeva

15 сентября 2006, 16:51

#2

Через explode очень медленно получится - объёмы большие...

Хочется через регулярные выражения сделать...

Нашла пример для "выдирания" адресов из выдачи Яндекса, но толку от этого... честно говоря ни сколько

<?php

$yaurl = 'http://www.yandex.ru/yandsearch?text=слово&stype=www';

$contents = file_get_contents($yaurl);

$pattern = "|<li value[^<]+<[^<]+<A[\s]+href=\"([^\"]*)[^>]*|is";

preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER);

for($i = 0; $i < count($out[1]); $i ++) {

echo $out[1][$i]."<br>";

}

?>

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

46

!kt0

15 сентября 2006, 17:14

#3

$out=array();

preg_match_all('/href="[\w]*">[\w]*</a>/xis', $contents, $out);

Вернет $out

Я имел ввиду, что уже out рубить через explode. Через регулярки не факт, что быстрее.

Можно вот так сделать:

$out=array();

$out1=array();

preg_match_all('/(?<=href=")[\w]*(?=">)/xis', $contents, $out);

preg_match_all('/(?<=">)[\w]*(?=</a>)/xis', $contents, $out1);

По идее в $out должны оказаться ссылки, а в $out1 - тексты ссылок, но на счет $out1 - не очень уверен

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

68

aspnet

15 сентября 2006, 17:19

#4

Sveta Prokopeva:
От природы не сильна в регулярных выражениях

😂😂😂😂😂😂😂

Умение применять другие силы - это класс :)

46

!kt0

15 сентября 2006, 17:23

#5

Вот так вот первоначальный вариант выглядит. Особых тормозов не замечал.

$out=array();

preg_match_all('/href="[\w]*">[\w]*</a>/xis', $contents, $out);

foreach($out[какой-то там] as $v){

$p=array();

$p=explode('"',$result);

array_push($urlres,$p[1]);

unset($p);

$p=array();

$x=array();

$p=explode('>',$result);

$x=explode('<',$p[1]);

array_push($textres,$x[0]);}

Сигналы ранжирования следующего поколения Интернет-маркетинг в новом десятилетии: Обзор тренинга «Лояльные клиенты

120

СКОРПИОН

15 сентября 2006, 17:29

#6

Кончайте извращаться...

Вот это парсер:

preg_match_all("!<a.*?href=\"?'?([^ \"'>]+)\"?'?.*?>(.*?)</a>!is", $str, $ok);

Вот это вывод:

for ($i=0; $i<count($ok[1]); $i++) {

echo "<br />".$ok[1][$i]." - ".$ok[2][$i];

З.Ы.

Парсим, естественно, то что находится в переменной $str

• Контекстные ссылки с внутренних страниц навсегда (/ru/forum/370882) • Качественные сайты для заработка на контекстной рекламе и ссылках

99

Sveta Prokopeva

15 сентября 2006, 17:52

#7

За помощь спасибо всем

Скорпиону отдельное за хороший рабочий вариант ;)

Вопрос исчерпал себя

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах