Конвертация из PDF в HTM

122

Павел2007

20 сентября 2008, 20:57

2006

Помогите пожалуйста найти программу для конвертации из формата PDF в формат HTML. Выкачал несколько программ в интернете (например Convert Doc) но проблема в том что они или русский язык не понимают и вместо кирилицы пишу ерунду, или зависают через 5 минут после начала работы.

Обрабатывать необходимо тысячи файлов и вручную тут не особо разбежишся.

Если кто то сталкивался киньте, только не подсовывайте пожалуйста то, чем сами не пользовались.

Заранее спасибо.

V

131

Valo

20 сентября 2008, 21:08

#1

А у вас ПДФ изначально из какой программы конвертировался?

Что там - текст, картинки? Текст не растрированный?

П2

122

Павел2007

20 сентября 2008, 21:29

#2

Valo:
А у вас ПДФ изначально из какой программы конвертировался?

Что там - текст, картинки? Текст не растрированный?

Да в том то и дело что все подряд - и текст и картинки. Но текст в принципе обычно от туда вручную вытаскивался, видимо не растрированный.

S2

611

Str256

20 сентября 2008, 21:35

#3

Можно в 2-а этапа:

1. PDF - Word = SolidConverterPDF (пробовал)

2. Word - HTML = WordCleaner (есть, но не пробовал)

Всё конечно зависит, как правильно заметил Valo, что у вас там растр или текст. Если растр, то надо распознавать.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

V

131

Valo

20 сентября 2008, 21:36

#4

Короче, мне, если честно, не попадался ни один хороший конвертер из PDF даже в doc или txt.

Единственное, что, на мой взгляд, можно попробовать сделать — это скормить PDF Файн Ридеру и попробовать там повозиться с ним, хотя бы текст распознать, который можно потом в HTML зафигачить.

Короче, похоже на то, что ручной обработки всё равно не избежать, просто надо понять, как это сделать малой кровью.

Если там только текст, то всё шикарно.

21

seo-рейдер

20 сентября 2008, 21:38

#5

fine reader 9 есть такая функция

все за я против, все на право я на лево, всегда против шерсти, говорю правду всегда

V

131

Valo

20 сентября 2008, 21:38

#6

Понял, не только текст.

Способом, который предложил Str256, лично я не пользовался, пробовал ABBYYвским конвертером напрямую в ХТМЛ - лажа ваще.

21

seo-рейдер

20 сентября 2008, 21:40

#7

Valo, прежде чем писать попробуй

П2

122

Павел2007

20 сентября 2008, 21:42

#8

Valo:
Понял, не только текст.

Способом, который предложил Str256, лично я не пользовался, пробовал ABBYYвским конвертером напрямую в ХТМЛ - лажа ваще.

верно подметили, лажа полная. но согласитесь, если будем гонять из ПДФ в ВОРД и далее в ХТМЛ структуры вообще никакой не останется.

Павел2007 добавил 21.09.2008 в 01:42

seo-рейдер:
fine reader 9 есть такая функция

скажите Вы это пробовали и у Вас хорошо вышло?

21

seo-рейдер

20 сентября 2008, 21:44

#9

Павел2007,да пробовал вышло но есть. валидности никакой

П2

122

Павел2007

20 сентября 2008, 21:47

#10

seo-рейдер:
Павел2007,да пробовал вышло но есть. валидности никакой

простите, а по русски? хрень полная вышла?

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Переиграть и победить: как анализировать конкурентов для продвижения сайта