C# REGEX

L9

53

levka9

27 июня 2010, 16:58

1144

Мне нужно написать парсер линков с хтмл страниц.

Написал я Regex всё работает, только парсит так же линки в коментах

и в JS, <script> links </script> , что мне не надо.

Может кто знает как в самом регулярном выражение это исключить ?

Тут рабочие выражения для парсинга линков с хтлм кода:

<a[^>]+href="([^"]+)"[^>]*>(.*?)</a>

Спасибо.

Программирую на ASP.NET, MVC, C#, ANGULAR JS

196

VoV@

28 июня 2010, 07:31

#1

В самом выражении Вы такие ссылки эффективно не исключите.

Пишите специальный код для исключения ссылок в скриптах и комментариях.

⭐ Разработка Андроид-приложений (Xamarin C#). ⭐ Разработка ASP.NET (WebForms, MVC, WebAPI, Core). ⭐ Цой жив!

[Удален]

28 июня 2010, 07:56

#2

Вначале извлекаем только тот участок кода, где находится линки (удаляем JS и пр муть), а потом из него парсим линки.

S

94

Steepler

28 июня 2010, 08:09

#3

<a[^>]*> - так не устраивает?

Разрабатываем сайты (http://www.rclsoft.ru/)

314

T.R.O.N

28 июня 2010, 08:13

#4

levka9, хотите обойти подобные ошибки, делайте нормальный HTML парсер, который понимает структуру самого кода

Steepler:
<a[^>]*> - так не устраивает?

а как быть с  или <textarea> <a ...>......</a> </textarea>?

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

S

94

Steepler

28 июня 2010, 08:46

#5

T.R.O.N:
levka9, хотите обойти подобные ошибки, делайте нормальный HTML парсер, который понимает структуру самого кода
а как быть с  или <textarea> <a ...>......</a> </textarea>?

Обойти линки в комментариях и JS не получится. Сложно написано. Может достаточно более простой записи, чтобы парсить линки?

196

VoV@

28 июня 2010, 09:00

#6

levka9, простейший способ выбросить из текста всё содержимое <script></script> и  с помощью тех же регекспов, а за тем найти ссылки в оставшейся части.

VoV@ добавил 28.06.2010 в 13:11

T.R.O.N, с днём рожденья! 🍻

39

alexandr_nv

28 июня 2010, 13:01

#7

VoV@:
В самом выражении Вы такие ссылки эффективно не исключите.
Пишите специальный код для исключения ссылок в скриптах и комментариях.

Исключить можно.

Помогут negative\positive lookahead\lookbehind

569

Dreammaker

28 июня 2010, 18:05

#8

alexandr_nv:
Исключить можно.

только зачем? :)

L9

53

levka9

6 июля 2010, 16:25

#9

вот подсказали на другом форуме сделать так:

(?:[\s\S]*?)?(<a[^>]+href="([^"]+)"[^>]*>(.*?)</a>)

Идея такая - пропустить (если есть) коментарии, и парсить <a>

должно работать.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта