Помогите составить регулярное выражения для чистки карты сайта

Г
На сайте с 24.12.2006
Offline
63
555

Сгенерировал карту сайта через один из сервисов, а там порядка 100 ненужных страниц.

Хочу убрать блоки для этих страниц из файла. Чую, что можно сделать через регулярные выражения, но никак самому не удается.

Задача:

"Найти в строке подстроку, заключенную в тэги <url></url> и содержащую слово "login" и удалить ее. Если подстрока <url></url> не содержит слово "login", то ее не удалять."

Проблема в том что все регулярки, которые я пробовал составить, захватывают несколько блоков <url></url>, если в них нет того слова "login" вместе с последним блоком, содержащим слово "login".

Помогите, пожалуйста, кто разбирается.

DV
На сайте с 01.05.2010
Offline
644
#1

Пример данных нужен, нескольтко строк в разных вариациях.

И платформа, куда вы их, эти регулярки, применяете.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
Г
На сайте с 24.12.2006
Offline
63
#2

Вот кусок:

<url><loc>http://review-pref.ru/literatura/49/131/</loc><changefreq>monthly</changefreq><priority>0.3</priority></url><url><loc>http://review-pref.ru/folklor/4/178/4/javascript/login</loc><changefreq>monthly</changefreq><priority>0.3</priority></url><url><loc>http://review-pref.ru/literatura/56/65/login/javascript/login/login/</loc><changefreq>monthly</changefreq><priority>0.3</priority></url><url><loc>http://review-pref.ru/folklor/4/164/</loc><changefreq>monthly</changefreq><priority>0.3</priority></url>

Надо убрать подстроки <url></url>, содержащие слово "login".

А для поиска и замены использую плагин Search&Replace для Far Manager.

J
На сайте с 20.02.2014
Offline
120
jkm
#3


<url>\s*<loc>[^<]+login.+?</url>\s*

https://regex101.com/r/gF3aD9/1

Г
На сайте с 24.12.2006
Offline
63
#4

Спасибо большое!

TF-Studio
На сайте с 17.08.2010
Offline
334
#5

в роботс проще закрыть страницы, если часто будете обновлять карту

+ раз есть ссылки такие ПС их может захотеть проиндексировать

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий