Конвертирование pdf в html

Samail
На сайте с 10.05.2007
Offline
328
1246

Чем можно в пакетном режиме конвертировать pdf файлы html с сохранением форматирования?

SergejF
На сайте с 07.06.2008
Offline
582
#1

ФайнРидером можно. Причем даже те pdf, что собраны из графических файлов.

Momenta... Этнографические заметки: http://www.sbible.ru/vasil1.htm
Samail
На сайте с 10.05.2007
Offline
328
#2

А как им пакетно конвертировать? Указать папку с тысячами файлов и что-бы он сам всё сделал.

D
На сайте с 18.12.2015
Offline
142
#3

Можно попробовать LibreOffice + unoconv, но у меня сейчас на небольшом наборе на зашло. Хотя вот делаю задание, и гоняю презентации в pdf без особых проблем.

Делал так:


#!/bin/bash

for f in *.pdf
do
$(unoconv -f html $f)
done;
Разработка и поддержка высоконагруженных проектов.
Samail
На сайте с 10.05.2007
Offline
328
#4

Из того что смотрел более-менее подходит вот эта программа: http://www.freepdfsolutions.com/free-pdf-to-html.html но только вот в исходном коде html файла жесть творится. [ATTACH]175242[/ATTACH]

png Screenshot_32.png
D
На сайте с 18.12.2015
Offline
142
#5

Да, оно всегда так делает. Я как-то doc в html конвертировал, там тоже мешанина. В итоге, пришлось парсить итоговый HTML и вырезать у тегов атрибуты, а также делать unwrap для тегов span. В итоге, оставались только одни теги p.

Ну а распарсить pdf в HTML с какой-либо вменяемой версткой вряд ли возможно. Где-то видел видео нейронной сети которая верстает с макетов.

Samail
На сайте с 10.05.2007
Offline
328
#6

Перепробовал кучу вариантов, везде какие-то косяки вылазят. Остановился на самом Акробате, там оказывается тоже можно пакетно экспортировать, правда форматирует тоже так себе но хоть слова не разрывает и кракозябры не выдаёт.

_
На сайте с 24.03.2008
Offline
357
#7

Вроде в .doc довольно многие раньше конвертировали, можно попробовать в него, и уже потом в html.

Samail
На сайте с 10.05.2007
Offline
328
#8

_SP_, я попробовал там проблема та-же, в коде куча мусора получается.

_
На сайте с 24.03.2008
Offline
357
#9
Samail:
_SP_, я попробовал там проблема та-же, в коде куча мусора получается.

Так мусор удаляйте, в чём проблема ?

Зачастую можно просто реплейсом

Samail
На сайте с 10.05.2007
Offline
328
#10

Так если всё равно удалять зачем два раза конвертировать, Acrobat его меньше создаёт чем Word.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий