- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Изобразил стратегический вариант)
Что насчёт href= href= - множественных href в тегах - это уже конкретный изврат и форс-мажор - в данном случае эта регулярка выгребет первый href, а для конкретного случая проще будет написать специальный разборщик
jumash добавил 24.07.2009 в 09:58
что значить это?
Любой символ кроме >
jumash, вот чествно скажу, что такие регулярки Я считаю признаками говнокода =))) ибо поправить еее!! сложнее чем мою, сложно будет вспомнить что там и как там, а читать такие вещи остаточно сложно. поэтому я люблю простые алгоритмы типа просто поиска всех ссылок + последующая фильтрация через тримминг боковых кавычек ..
Ну не знаю что тут сложного :)
Тут или знаешь их или не знаешь :)
Тем более что если запутаешься - можно легко написать новую за короткое время
Да и читать просто весьма
Тег начинается с a, идём до первого встреченного href, подразумеваем наличие пробелов, смотрим на присутствие нашего сайта, если нет - игнорируем любые другие сайты, потом гребём всё внутри href кроме пробелов и кавычек (тут косяк может быть если урл кривой и кавычки внутри), потом идём до конца тега
Весьма простая :) Всего один забегайчик)
jumash, поспорил бы, да по делам надо уходить срочно =)))) кстати регуярка схавает в левую часть вот это <a name='sdlad'>asdasdas</> .... <a href="
не критично, но я считаю такое непредсказуемое поведение регулярки - ошибкой :) так сказать нотис уровня.
Возвращайся и пополемизируем ещё :) Для меня они больная тема - в Perl-парсерах)))
Не схавает, я ещё немного поменял её)
а весьма простой даже говнокод начинающего программиста, однако копаться в нем не всегда хочется :)
bearman добавил 24.07.2009 в 10:06
ы
не честно менять пост =))
Я пару символов добавил и цитату :) Торопился весьма и забыл что может быть khref и убрал два слеша после https?:
В общем, самое оптимальное решение всё-таки - это:
Регулярка на поиск ВСЕХ ссылок.
- Универсально и просто. Можно потом при желании и все внешние ссылки найти, и все внутренние, и все ссылки на определённый сайт - не переписывая регулярок!
- Плюс ошибок будет меньше, так как выглядит гораздо проще. А кстати, где она? ;)
#<a[^>]*?\shref\s*=\s*[^\w]?\/?([^\s>'\"]+)[^>]*?>#ism
Регулярка на оценку...