Подскажите решение

Dm
На сайте с 11.03.2002
Offline
108
Dm
1165

Требуется считывать html, убирать из него все форматирование, оставляя только простые теги. Т.е. если было <font size="5" face="..."> то надо оставить только <font size="5">. Если было <h1><...>heading</...></h1>, то оставить надо только <h1>heading</h1>. Т.е. некоторый упроститель html.

Существует ли готовое решение?

Я за ДСДЛ (/ru/forum/135358)
AiK
На сайте с 27.10.2000
Offline
257
AiK
#1

В Perl CookBook есть подобный пример - там тэги меняют на что-то ещё. Думаю это "что-то ещё" заменить труда не составит.

И ещё, есть прога, которая выдирает "лишние" тэги (например, которые Word городит). Но это за денежку.

VT
На сайте с 27.01.2001
Offline
130
#2

Originally posted by AiK:
В Perl CookBook есть подобный пример - там тэги меняют на что-то ещё. Думаю это "что-то ещё" заменить труда не составит.

Ага, оно-то не составит:

$html=~s/<(\S+(\s+\S+)?).*?(>.+< )?(\/$1)/<$1$3$4/g;

$html=~s/<(h\d+)>(.*?)>(.+)?<(.*)?>(<\/$1)/<$1>$3$5/g;

Только будет ли работать во всех случаях?

2DM: а зачем, если не секрет, это нужно?

Dm
На сайте с 11.03.2002
Offline
108
Dm
#3

Наверное не совсем четко выразился :-).

Ситуация такая - есть один статический сайт (в нем много страниц ), из него надо сделать другой статический сайт с такой же структурой (по файлам и директориям), но изменить его внешний вид (ну типа навигация сверху была, а стала сбоку) + замену слов (чтобы в таблице задавалось). Естественно надо сделать, чтобы потом руками не надо было подправлять. Вот что нужно в идеале . Вот меня интересует, есть что-нибудь готовое для этого или придется все-таки самому "программировать" ?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4

В части редизайна тебе вряд ли что поможет. А для замены - есть такая программа, называется Advanced Search and Replace, она может производить массовую замену с использованием регулярных выражений. Я видел ее как-то в сломанном виде, поищи, может, найдешь.

[Удален]
#5

Расширенный поиск/замена есть в HomeSite

JC
На сайте с 13.09.2001
Offline
44
#6

Originally posted by Dm:
Требуется считывать html, убирать из него все форматирование, оставляя только простые теги. Т.е. если было <font size="5" face="..."> то надо оставить только <font size="5">. Если было <h1><...>heading</...></h1>, то оставить надо только <h1>heading</h1>. Т.е. некоторый упроститель html.
Существует ли готовое решение?

Копируешь содержимое в Notepad и все тэги пропадают. Потом Copy из Notepada - Paste в HTML редактор и получаешь страницу с минимальным количеством тэгов.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий