- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть документ Ворда, имеет в себе например 100 статей такого вида:
Пулеметом по банкнотам
Чтобы вернуть деньги вкладчиков, требуется либо доверие к банку, либо грубая сила. У каждого времени, как известно, свои законы и свои методы воздействия на общественное мнение. Сегодня мы говорим о восстановлении доверия.
Пулеметом по банкнотам - Заголовок 1-го типа.
Таких статей в документе сотни. Скажите, как можно разделить этот документ на много тхт файлов, в каждом из которых будет отдельно вот такая 1 статья?
Заранее спасибо!
руками, используя: блокнот + ворд :))))
Поскольку формат ворда мерзок и плохо усваивается, я бы для начала сохранил в нечто структурированное и с открытым форматом. Худший вариант - HTML (много мусора от ворда, надо чистить), получше - RTF. Совсем хорошо в XML
Ну а любой из этих форматов парсить вообще сплошное удовольствие. Для хтмл можно использовать DOMDocument, для XML либо его же либо SimpleXML, для RTF придется попрогать. Находим титлы глазками, смотрим их формат и делим по подобным вхождениям
можно через макрос в ворде, уверен на 90% ))
руками, используя: блокнот + ворд :))))
Добрый ты)
neolord добавил 19.03.2009 в 22:35
можно через макрос в ворде, уверен на 90% ))
можно, используя FileSystemObject чтобы файлы сохранять. Но там могут быть косяки
neolord, а можно используя new Dom("Application.Word");
из пхп ;)
Если в лоб, то .doc -> сохранить в .html -> распарсить с помощью регулярки -> удалить мусор и теги
Пишите макрос: если найден "заголовок 1", а следом последовательность любых символов, то сохранить найденный фрагмент в новый текстовый файл и т.д.
Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?
Ну а если не док а тхт файл поделить?
Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?
Ну а если не док а тхт файл поделить?
В этом случае я думаю эта штука вам поможет. Только она делит не по заголовкам, а по количеству строк или выходных файлов, а так вообщем нормуль ;)
neolord, а можно используя new Dom("Application.Word");
из пхп ;)
ну можно, только работать будет только из винды.
Пишите макрос: если найден "заголовок 1", а следом последовательность любых символов, то сохранить найденный фрагмент в новый текстовый файл и т.д.
ага, найди щас людей которые знают VBA
Вы тут столько всего наговорили, писат ьчто то надо...я ж не програмист...нет каких нить десктопных готовых решений чтоли?
Ну а если не док а тхт файл поделить?
десктопных решений для парсинга хтмл или xml за глаза. В гугле запросто находится