Для конкретного случая нужно написать специальный разборщик - Веб-строительство

53

jumash

24 июля 2009, 05:57

#41

Изобразил стратегический вариант)


#<a[^>]*?\shref\s*=\s*[^\w]?(https?:\/\/(www\.)?oursite\.com/)?(?!https?:)/?([^\s>'\"]+)[^>]*?>#ism

Что насчёт href= href= - множественных href в тегах - это уже конкретный изврат и форс-мажор - в данном случае эта регулярка выгребет первый href, а для конкретного случая проще будет написать специальный разборщик

jumash добавил 24.07.2009 в 09:58

joost:
что значить это?

Любой символ кроме >

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

24 июля 2009, 05:59

#42

jumash, вот чествно скажу, что такие регулярки Я считаю признаками говнокода =))) ибо поправить еее!! сложнее чем мою, сложно будет вспомнить что там и как там, а читать такие вещи остаточно сложно. поэтому я люблю простые алгоритмы типа просто поиска всех ссылок + последующая фильтрация через тримминг боковых кавычек ..

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

J

53

jumash

24 июля 2009, 06:02

#43

Ну не знаю что тут сложного :)

Тут или знаешь их или не знаешь :)

Тем более что если запутаешься - можно легко написать новую за короткое время

Да и читать просто весьма

Тег начинается с a, идём до первого встреченного href, подразумеваем наличие пробелов, смотрим на присутствие нашего сайта, если нет - игнорируем любые другие сайты, потом гребём всё внутри href кроме пробелов и кавычек (тут косяк может быть если урл кривой и кавычки внутри), потом идём до конца тега

Весьма простая :) Всего один забегайчик)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

24 июля 2009, 06:04

#44

jumash, поспорил бы, да по делам надо уходить срочно =)))) кстати регуярка схавает в левую часть вот это <a name='sdlad'>asdasdas</> .... <a href="

не критично, но я считаю такое непредсказуемое поведение регулярки - ошибкой :) так сказать нотис уровня.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

J

53

jumash

24 июля 2009, 06:05

#45

Возвращайся и пополемизируем ещё :) Для меня они больная тема - в Perl-парсерах)))

Не схавает, я ещё немного поменял её)

[Удален]

24 июля 2009, 06:05

#46

а весьма простой даже говнокод начинающего программиста, однако копаться в нем не всегда хочется :)

bearman добавил 24.07.2009 в 10:06

ы

Последний раз редактировалось jumash, Сегодня в 12:02. Причина: Добавлено сообщение

не честно менять пост =))

J

53

jumash

24 июля 2009, 06:17

#47

Я пару символов добавил и цитату :) Торопился весьма и забыл что может быть khref и убрал два слеша после https?:

147

DyaDya

24 июля 2009, 06:34

#48

В общем, самое оптимальное решение всё-таки - это:

Регулярка на поиск ВСЕХ ссылок.

- Универсально и просто. Можно потом при желании и все внешние ссылки найти, и все внутренние, и все ссылки на определённый сайт - не переписывая регулярок!

- Плюс ошибок будет меньше, так как выглядит гораздо проще. А кстати, где она? ;)

Выбирайте качественный хостинг (http://vashmaster.ru/informaciya/o_poleznyh_programmah/news83.php) и продвигайте сайты в СЕОПУЛЬТ (http://seopult.ru/ref.php?ref=72b5ed9561fe66a1). А на «SAPE» я в обиде :) Не упрекайте за очепятки, пишу вслепую (http://ergosolo.ru/) и также делаю сайты (http://www.vashmaster.ru/) ;)

J

53

jumash

24 июля 2009, 06:37

#49

#<a[^>]*?\shref\s*=\s*[^\w]?\/?([^\s>'\"]+)[^>]*?>#ism

225

ewg777

24 июля 2009, 06:41

#50

Регулярка на оценку...

'/<(a.*) href=\"(.*?)\"(.*)<\/a>/'

Что такое Power BI и зачем это нужно бизнесу

Open AI тестирует память для ChatGPT

Регулярки на пхп