Конвертация из PDF в HTM

П2
На сайте с 14.10.2007
Offline
122
1933

Помогите пожалуйста найти программу для конвертации из формата PDF в формат HTML. Выкачал несколько программ в интернете (например Convert Doc) но проблема в том что они или русский язык не понимают и вместо кирилицы пишу ерунду, или зависают через 5 минут после начала работы.

Обрабатывать необходимо тысячи файлов и вручную тут не особо разбежишся.

Если кто то сталкивался киньте, только не подсовывайте пожалуйста то, чем сами не пользовались.

Заранее спасибо.

V
На сайте с 21.04.2008
Offline
131
#1

А у вас ПДФ изначально из какой программы конвертировался?

Что там - текст, картинки? Текст не растрированный?

П2
На сайте с 14.10.2007
Offline
122
#2
Valo:
А у вас ПДФ изначально из какой программы конвертировался?

Что там - текст, картинки? Текст не растрированный?

Да в том то и дело что все подряд - и текст и картинки. Но текст в принципе обычно от туда вручную вытаскивался, видимо не растрированный.

S2
На сайте с 07.01.2008
Offline
611
#3

Можно в 2-а этапа:

1. PDF - Word = SolidConverterPDF (пробовал)

2. Word - HTML = WordCleaner (есть, но не пробовал)

Всё конечно зависит, как правильно заметил Valo, что у вас там растр или текст. Если растр, то надо распознавать.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
V
На сайте с 21.04.2008
Offline
131
#4

Короче, мне, если честно, не попадался ни один хороший конвертер из PDF даже в doc или txt.

Единственное, что, на мой взгляд, можно попробовать сделать — это скормить PDF Файн Ридеру и попробовать там повозиться с ним, хотя бы текст распознать, который можно потом в HTML зафигачить.

Короче, похоже на то, что ручной обработки всё равно не избежать, просто надо понять, как это сделать малой кровью.

Если там только текст, то всё шикарно.

seo-рейдер
На сайте с 04.01.2008
Offline
21
#5

fine reader 9 есть такая функция

все за я против, все на право я на лево, всегда против шерсти, говорю правду всегда
V
На сайте с 21.04.2008
Offline
131
#6

Понял, не только текст.

Способом, который предложил Str256, лично я не пользовался, пробовал ABBYYвским конвертером напрямую в ХТМЛ - лажа ваще.

seo-рейдер
На сайте с 04.01.2008
Offline
21
#7

Valo, прежде чем писать попробуй

П2
На сайте с 14.10.2007
Offline
122
#8
Valo:
Понял, не только текст.

Способом, который предложил Str256, лично я не пользовался, пробовал ABBYYвским конвертером напрямую в ХТМЛ - лажа ваще.

верно подметили, лажа полная. но согласитесь, если будем гонять из ПДФ в ВОРД и далее в ХТМЛ структуры вообще никакой не останется.

Павел2007 добавил 21.09.2008 в 01:42

seo-рейдер:
fine reader 9 есть такая функция

скажите Вы это пробовали и у Вас хорошо вышло?

seo-рейдер
На сайте с 04.01.2008
Offline
21
#9

Павел2007,да пробовал вышло но есть. валидности никакой

П2
На сайте с 14.10.2007
Offline
122
#10
seo-рейдер:
Павел2007,да пробовал вышло но есть. валидности никакой

простите, а по русски? хрень полная вышла?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий