очистка текста

12
xumukys
На сайте с 23.03.2009
Offline
107
3044

посоветуйте прогу для очистки текста от шлака(тегов, ссылок и тд)

Для тегов нашел прогу html2txt, а что насчет ссылок и прочей ереси используете?

TopperHarley
На сайте с 24.03.2009
Offline
350
#1

все теги вычищаются обычной регуляркой так как они все выглядят так: <.*?>

Expresso поможет

или открой текстовку браузером и копипасти отрендеренную

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
.0
На сайте с 16.06.2009
Offline
8
.20
#2

KeyWordKeeper 4.2.4

xumukys
На сайте с 23.03.2009
Offline
107
#3

а если ссылки без тегов вида http://site.ru/статья.html

пробывал простым блакнотом замену делать http://*.html - не получается....

ciber
На сайте с 04.01.2008
Offline
215
#4
TopperHarley:
все теги вычищаются обычной регуляркой так как они все выглядят так: <.*?>
Expresso поможет

или открой текстовку браузером и копипасти отрендеренную

strip_tags -- Удаляет HTML и PHP тэги из строки

Dimid
На сайте с 03.12.2006
Offline
74
#5

сразу нужно парсить без шлака

+можно просто открыть в nodepad++ и пройтись регуляркой

пробывал простым блакнотом замену делать http://*.html - не получается....

простой блокнот не понимает регулярку насколько я знаю

N4
На сайте с 19.04.2008
Offline
29
#6

Вот попробуй.

Расширение поменяй на php

xumukys
На сайте с 23.03.2009
Offline
107
#7
Dimid:
сразу нужно парсить без шлака
+можно просто открыть в nodepad++ и пройтись регуляркой

простой блокнот не понимает регулярку насколько я знаю

А как быть если ссылки вида http://....ru/bredotekst (тоесть не заканчиваются на .html но находятся на 1 строчке, может как нибудь можно удалить строчки содержащие http?)

[Удален]
#8

да запросто, лучше своего софта для таких дел не найти

.:nbd:.
На сайте с 04.11.2008
Offline
98
#9
xumukys:
А как быть если ссылки вида http://....ru/bredotekst (тоесть не заканчиваются на .html но находятся на 1 строчке, может как нибудь можно удалить строчки содержащие http?)

Как-то так?

http[^\s]+

То есть от http и до пробела

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
xumukys
На сайте с 23.03.2009
Offline
107
#10
.:nbd:.:
Как-то так?



То есть от http и до пробела

в большинстве ссылок нет пробела а просто переход на новую строку...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий