Пакетная очистка файлов от HTML тегов

TAFF
На сайте с 28.08.2008
Offline
140
1940

Здравствуйте!

Ищу инструмент для пакетной очистки большого количества *.html файлов от html тегов.

Желательно фри софт.

PS: Пробовал посредством NotePad++, но так и не осилил как в регулярку поиска "<(.*)>" добавить фичу поиска до первого знака ">" а не до последнего как сейчас.

✓ Администрирование (/ru/forum/494299) | ✓ Домены (/ru/forum/298049) | ✓ Продажа аккаунтов narod.ru (/ru/forum/585347)
Jekyll
На сайте с 04.05.2009
Offline
136
#1

<?php

$dir = opendir ("directory"); // папка с файлами
while ( $file = readdir ($dir))
if (( $file != ".") && ($file != "..")) {

$content = file_get_contents($file);
$f = fopen($file,"w+");
fputs($f, strip_tags($content));
fclose($f);
}

closedir ($dir);
?>

Осторожно, код с коленки. Но вроде должен работать

ydn
На сайте с 12.05.2010
Offline
12
ydn
#2

NotePad++. Есть готовое решение. Выделите весь текст и в меню выбрать:

TextFX -> TextFXConvert -> Strip HTML tags table tabs

или

TextFX -> TextFXConvert -> Strip HTML tags table nontabs

Решение конечно для одного файла, может как-то можно и пакетами обрабатывать, никогда такой целью не задавался. А вообще скрипт предложенный выше вполне рабочий, но это на php. Несколько неудобно будет если использовать его на локальном компе

Вёрстка xHTML ● WordPress > Вёрстка, программирование, настройка, консультации (/ru/forum/526726) Вёрстка на халяву (/ru/forum/569543) ICQ 853588 | Написать мне личное сообщение ()
[Удален]
#3
TAFF:
PS: Пробовал посредством NotePad++, но так и не осилил как в регулярку поиска "<(.*)>" добавить фичу поиска до первого знака ">" а не до последнего как сейчас.

<([^>]*)>
?
T
На сайте с 20.03.2007
Offline
67
Toy
#4

<(.*?)>

м?

[Удален]
#5
Toy:
<(.*?)>

Та да :)

Но разве нотепад++ может обрабатывать кучу файлов без их открытия? (просто указав папку для обработки)

GoodChoice
На сайте с 28.02.2009
Offline
102
#6

Под эти нужды и не только юзаю TextPipe Pro

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий