- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Пишу кое-что на Perl, и никак не удаётся сделать вот что: нужно напарсить из кода страницы раздельно все внешние и внутренние линки..
мб поможет кто
В данном случае можно и без регулярок обойтись (если их не знаешь). Достаточно строковыми функциями обойтись. Перл не знаю, конкретно не подскажу, но логика такая.
1. ищется вхождение строки своего домена. Полное слово (от пробела до пробела) - локальный урл.
2. ищется все вхождения hттp://
2.1 из результата выкидываются вхождения локального домена.
Один момент - нужно учесть с ввв и без оного.
SeoNizator, забыли об относительных ссылках - их тоже к внутренним относить нужно :)
Поэтому нужно искать все "<a href". А уже среди них искать
0. Убирать все href="javascript:
1. Вхождения своего домена - локальная ссылка
2. Отсутствие своего домена и наличие домена (parse_url) - внешняя ссылка
3. Отсутствие домена - локальная ссылка
юзай аналог из пхп preg_replace_callback
А регулярки там вроде тоже посикс - /\<a href=\"(http:\/\/)?(www)?([a-zA-Z0-9-]{1,15})\.([a-z]{2,4})\/(.*?)\"/ и разбирай потом карманы
SeoNizator, забыли об относительных ссылках - их тоже к внутренним относить нужно :)
Поэтому нужно искать все "<a href". А уже среди них искать
0. Убирать все href="javascript:
1. Вхождения своего домена - локальная ссылка
2. Отсутствие своего домена и наличие домена (parse_url) - внешняя ссылка
3. Отсутствие домена - локальная ссылка
Ну не то что бы забыл... Есть у меня такая привычка (плохая наверное ;) ) - не договаривать чуток, чтобы дать возможность человеку самому подумать. А когда он найдёт, то что я не договорил - он будет повод гордиться собой ;).
А вот про яваскрип, да, дейсвительно забыл.
Всем спасибо за советы, как будет время - попробую.
юзай аналог из пхп preg_replace_callback
А регулярки там вроде тоже посикс - /\<a href=\"(http:\/\/)?(www)?([a-zA-Z0-9-]{1,15})\.([a-z]{2,4})\/(.*?)\"/ и разбирай потом карманы
Такая регулярка не пойдет уже хотя бы потому что, href не всегда идет сразу после a, может быть так, например: <a target="_blank" href="...">, да и кавычки не всегда ставятся...