Скрипт разбивки документа по главам - нужна помощь

[Удален]
565

Приветствую.

Возникла задача создать программное решение для оптимизации процесса публикации на сайт структурированных документов.

Пример:

Есть большой документ, который содержит двух- трехуровневую структуру.

Раздел 1. Название раздела

  • Глава 1. Название главы
  • Глава 2. Название главы
  • Глава 3. Название главы


Раздел 2. Название раздела

  • Глава 1. Название главы
  • Глава 2. Название главы

И т.д. Примером подобного документа может служить любой Кодекс, который состоит из Разделов, разделы из Глав, главы из Статей.

Стоит задача, публиковать такие документы на сайте вот в таком виде (пример): http://www.consultant.ru/popular/ukrf/

Причем хотелось бы процесс публикации максимально автоматизировать и упростить.

Возникает вопрос,

1. Существуют ли уже готовые решения для таких задач?

2. Если нет, и надо писать собственный скрипт, то какую бы (примерно) логику вы предложили? Мы попытались реализовать это через парсинг документов WORD, в которых заранее указываем уровень заголовков, но наступили на грабли: PHP плохо обрабатывает регулярными выражениями длинные строки.

Progs-letitbit
На сайте с 26.08.2009
Offline
30
#1

PHP вообще документы Office плохо воспринимает, насколько я знаю.

В теории можно вообще сохранять в текстовые файлы, так как например если после и перед новой главой (условно), есть например по 2 перевода строки - то можно парсить такими методами.

Фотопартнерка по созданию фоторамок - до 70% с СМС (http://kommuna.me/index.php?/topic/7523-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82-%D1%84%D0%BE%D1%82%D0%BE%D1%80%D0%B0%D0%BC%D0%BA%D0%B0/)
[Удален]
#2

Ну кстати, да, как вариант, Спасибо.

Но с txt сразу как-то не захотели связываться, так как исходные документы могут содержать картинки.

Интересно, есть ли готовые решения для таких задач. Не верю, что у нас первых возникла такая задачка.

CM
На сайте с 17.02.2011
Offline
0
#3

как вариант можно найти конвертер из word в txt, на php сам видел такой, А вообще на великом и могучем есть http://ru2.php.net/com вот что. работать правда будет только под виндой.

[Удален]
#4

Не, к сожалению решение только под винду нам не подходит. Надо чтоб все было под веб-сервер на linux.

Профи, помогите советом

[Удален]
#5

я не профи, но вот совет: док офиса сохранять можно как веб страницу с фильтром, приэтом выделяя разделы "кодекса" заголовками(1,2,3 и т.д). картинки насколько знаю сохранятся в определенной директории. птом дело скрипта присвоить заголовкам и картинкам - ссылки...

а так, видел многих на форуме кто скриптами занимался.. поиск в зубки.

удачи книжник!)

М
На сайте с 08.02.2006
Offline
59
#6

А Open Document Format не подходит? Вроде как новые версии MSOffice могут в нем сохранять, не считая нативной поддержки в Open/LibreOffice.

На выходе - xml-документ в открытом стандартизированном формате, где главы будут иметь иерархическую структуру.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий