Подскажите, как реализовать такое

jano · 2015-11-27T13:25:01.0000000Z

К примеру есть код: <a title="машины" href="cars/машины">Машины</a> Нужно сделать поиск по *.html и добавить к ссылке расширение(.html). Будет так в результате. <a title="машины" href="cars/машины.html">Машины</a>

J

169

jano

27 ноября 2015, 17:29

#11

levchernenko:
jano, как-то так:
$array = glob("cars/*.html"); // в какой папке ищем
$s = array_search('машины', $array); // что ищем
if ($s) { echo $array[$s]; } //выводим результат, если нашло

Задача абсолютна другая. Если я заведомо буду знать что "машины" - то это можно сделать и без регулярных выражений.

Вместо "машины" может быть любое слово.

L

34

levchernenko

27 ноября 2015, 17:36

#12

jano, ну ясен пень. слово машины, в моем примере, меняешь на то, которое нужно найти

...

J

169

jano

27 ноября 2015, 17:39

#13

levchernenko:
jano, ну ясен пень. слово машины, в моем примере, меняешь на то, которое нужно найти

Таких слов тысячи. Вот будет правильная строчка

Ищем: \<a title\="([^\"]+)\" href\="([^\"]+)\"\>([^\"]+)\<\/a\>
На что меняем: <a title="$1" href="$2.html">$3</a>',

Если кому пригодится. Огромное спасибо RiDDi

427

siv1987

27 ноября 2015, 18:11

#14

F: (<a\s+title=".*?"\s+href=".*?)(?<!\.html)(")

R: $1.html$2

J

169

jano

27 ноября 2015, 18:49

#15

Почему-то такой код не работает:

Ищем: \<a class\="spin" href\="([^\"]+)\"\>([^\"]+)\<\/a\>

На что меняем: <a class="spin" href="$1.html">$2</a>',

Вроде всё делаю по аналогии. Подсказали бы где косяк.

285

RiDDi

28 ноября 2015, 03:28

#16

jano, вы используете в третьей группе условие ^\" (все, кроме символа двойной кавычки), что без ленивого режима будет работать неправильно т.к. захавает всё до следующей кавычки

в вашей задаче то, что после href вообще не нужно, делайте просто

Ищем: class="spin" href="([^\"]+)"

На что меняем: class="spin" href="$1.html"

siv1987 вон привёл вообще универсальное решение учитывающее возможные множества пробельных символов, а так же проверяющее, что .html нет в href :)

(<a\s+title=".*?"\s+href=".*?)(?<!\.html)(")

Только я бы перед href все же использовал бы \s* т.к. в данном месте гепотетически может не быть пробела вообще.

В самом же href надо, наоборот, использовать .+ - нам же не нужны href=".html", не так ли?

Ну и, конечно, ленивый режим (.*?) будет работать в данном случаи в два раза медленнее жадного ([^\"]*) т.к. будет осуществляться две проверки (множество + остаток) на каждый символ вместо 1 проверки (только множество) на символ.

Более корректно будет примерно так

(<a\s+title="[^\"]*"\s*href="[^\"]+)(?<!\.html)(")

ну и от себя добавлю чутка что бы правильно обрабатывать page#comments и page?action=comments

(<a\s+title="[^\"]+"\s*href="[^\"\#\?]+)(?<!\.html)([\"\#\?])

Вебмастер отдыхает на бережках морей. Заработок в интернете - дело техники.

Регулярки на пхп Парсинг google - изменился Как задать "анкор" для

Open AI тестирует память для ChatGPT

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы