Разделить .doc на .txt файлы

MiladyX
На сайте с 23.09.2008
Offline
65
2425

Есть документ Ворда, имеет в себе например 100 статей такого вида:


Пулеметом по банкнотам
Чтобы вернуть деньги вкладчиков, требуется либо доверие к банку, либо грубая сила. У каждого времени, как известно, свои законы и свои методы воздействия на общественное мнение. Сегодня мы говорим о восстановлении доверия.

Пулеметом по банкнотам - Заголовок 1-го типа.

Таких статей в документе сотни. Скажите, как можно разделить этот документ на много тхт файлов, в каждом из которых будет отдельно вот такая 1 статья?

Заранее спасибо!

[Удален]
#1

руками, используя: блокнот + ворд :))))

[Удален]
#2

Поскольку формат ворда мерзок и плохо усваивается, я бы для начала сохранил в нечто структурированное и с открытым форматом. Худший вариант - HTML (много мусора от ворда, надо чистить), получше - RTF. Совсем хорошо в XML

Ну а любой из этих форматов парсить вообще сплошное удовольствие. Для хтмл можно использовать DOMDocument, для XML либо его же либо SimpleXML, для RTF придется попрогать. Находим титлы глазками, смотрим их формат и делим по подобным вхождениям

[Удален]
#3

можно через макрос в ворде, уверен на 90% ))

[Удален]
#4
bearman:
руками, используя: блокнот + ворд :))))

Добрый ты)

neolord добавил 19.03.2009 в 22:35

bearman:
можно через макрос в ворде, уверен на 90% ))

можно, используя FileSystemObject чтобы файлы сохранять. Но там могут быть косяки

[Удален]
#5

neolord, а можно используя new Dom("Application.Word");

из пхп ;)

kil
На сайте с 03.04.2006
Offline
84
kil
#6

Если в лоб, то .doc -> сохранить в .html -> распарсить с помощью регулярки -> удалить мусор и теги

J0
На сайте с 13.05.2007
Offline
39
#7

Пишите макрос: если найден "заголовок 1", а следом последовательность любых символов, то сохранить найденный фрагмент в новый текстовый файл и т.д.

Зарабатываю тут (http://www.setlinks.ru/?pid=17004).
MiladyX
На сайте с 23.09.2008
Offline
65
#8

Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?

Ну а если не док а тхт файл поделить?

Sentoro
На сайте с 18.03.2007
Offline
149
#9
MiladyX:
Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?
Ну а если не док а тхт файл поделить?

В этом случае я думаю эта штука вам поможет. Только она делит не по заголовкам, а по количеству строк или выходных файлов, а так вообщем нормуль ;)

Продается СДЛ на тему инвестирования (http://www.telderi.ru/ru/viewsite/903457)
[Удален]
#10
bearman:
neolord, а можно используя new Dom("Application.Word");

из пхп ;)

ну можно, только работать будет только из винды.

jegx0a:
Пишите макрос: если найден "заголовок 1", а следом последовательность любых символов, то сохранить найденный фрагмент в новый текстовый файл и т.д.

ага, найди щас людей которые знают VBA

MiladyX:
Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?
Ну а если не док а тхт файл поделить?

десктопных решений для парсинга хтмл или xml за глаза. В гугле запросто находится

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий