Вытаскиваем все ссылки из HTML perl'ом

55

sergey_

29 апреля 2007, 15:36

2553

В perl есть массив @html в нем html страницы.

пытаюсь получить все ссылки которые есть в нем:

@html = ~/<a[^>]+?href\s*=\s*["']?([^'" >]+?)[ '"]?>/sgi;

но нужного результата не получаю :(

наверно гдето скосячил ? не поможете?

Черный список покупателей http://blclient.ru (http://blclient.ru) Апи для интернет магазинов http://blclient.ru/API/ (http://blclient.ru/API/) Отслеживание посылок Почты России с СМС уведомлениями (http://blclient.ru/).

32

Small_Forward

29 апреля 2007, 17:24

#1

Попробуйте так:

# преобразуем массив строк HTML-страницы в строку

$html = join("",@html);

# выбираем все ссылки со страницы

@html = $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;

С уважением, Игорь

55

sergey_

30 апреля 2007, 07:18

#2

не работает :(

32

Small_Forward

30 апреля 2007, 07:52

#3

#!/usr/bin/perl

# Более подробно

print "Content-type: text/html\n\n";

# указываем путь к HTML-файлу

$file = "/путь к файлу/my_file.htm";

# читаем HTML-файл и пишем все в массив

open (FILE,"<$file"); @html=<FILE>; close(FILE);

# преобразуем массив строк HTML-страницы в строку

$html = join("",@html);

# выбираем все ссылки со страницы

@html = $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;

# выводим полученные ссылки, каждая - с новой строки

foreach (@html) {

print $_ . "<br>";

}

Составление файла robots.txt 17 советов по использованию AOL занимается разработками в

55

sergey_

30 апреля 2007, 08:27

#4

интересно, а анкоры вытащить намного сложнее?

можете помочь со скриптом?

D

153

Dinozavr

30 апреля 2007, 09:34

#5

sergey_:
интересно, а анкоры вытащить намного сложнее?
можете помочь со скриптом?

# выбираем все ссылки со страницы

@links= $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;

@anchors= $html =~ m/<A[^>]+?HREF\s*=\s*["']?[^'" >]+?[ '"].*?>([^<]+)/sig;

# выводим полученные ссылки, каждая - с новой строки

foreach (@links) {

print $_ . "<br>";

}

foreach (@anchors) {

print $_ . "<br>";

}

типа того...

32

Small_Forward

30 апреля 2007, 10:03

#6

Вариантов для реализации очень много, можно и так:

# выбираем все ссылки с анкорами со страницы

while ($html =~ s/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>([^<]+)//si) {

push @Ahtml, $2.": ".$1

}

# выводим полученные анкоры и ссылки, каждую пару - с новой строки

foreach (@Ahtml) {print $_ . "<br>";}

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи