- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Доброго времени суток.
Помогите составить регулярное выражение. Я парсю контент страницы, нужно получить все внутренние ссылки сайта из контента страницы.
Заранее благодарен =)
#<a[^>]+?href=["\'](\S*?)["\'][^>]*>(.*?)</a>#
siv1987, ТС хочет только внутренние :)
Кстати, вы тоже ощущаете нехватку парсеров в интернете? )
вы тоже ощущаете нехватку парсеров в интернете? )
Особенно не хватает поисковых систем :)
И это не шутка
Одной регуляркой не обойтись.
Одной регуляркой не обойтись.
Спасибо вам за помощь! Вроде всё работает, я конечно его доработал немного чтобы дублей не было и чтобы не собирал ссылки типа javascript:, #
Спасибо вам за помощь! Вроде всё работает, я конечно его доработал немного чтобы дублей не было и чтобы не собирал ссылки типа javascript:, #
Не забудь еще mailto, skype и якоря, типа <a name>
Не забудь еще mailto, skype и якоря, типа <a name>
В том примере кода это есть:
Этот пример нельзя считать готовым решением, написан на коленке за 15 минут. Если углубится в тему 10 строками кода не обойтись.
Многое не учтено, к примеру тег base и относительные пути когда присутствуют двоеточие "/../path/index.html".
Еще есть такие форматы ссылок: tel|callto:
Подобный парсер нет смысла писать самому, поскольку как уже выше писали - есть много интересных кейсов, все из которых предусмотреть сложно. Ведь есть еще и относительные ссылки, без домена, которые надо дополнять доменом.
Лучше или использовать DOM несмотря на скорость, либо искать парсеры готовые в виде библиотек.