уфф... ну ладно последняя попытка.
я говорил про конкретные "файлы.pdf" топикстартера, а не про политику фирмы адоб по поводу формата pdf в целом.
Политика фирмы адоб тут вообще не при чем. Не надо утаскивать дискуссию в дебри про то, что там имела в виду фирма Адоб, да для чего был создан формат pdf... Ну какое это имеет отношение к обсуждаемому вопросу?
pdf топикстартера, как понятно из его вопроса, уже готовы и вопрос в их оптимизации не стоит. Вопрос был простой и приземленный - "как лучше всего конвертировать/выложить то, что есть".
Если и сейчас не понятно - по другому объяснить не смогу.🙄
Ну в самом деле, не будет же он переоптимизировать гигантский архив газетных файлов?
Проще заново газету издать...
PS кстати, chuprun каковы ваши действия по выкладыванию газетного, например, архива?
Дано: есть 150 файлов *.pdf - архив за 3 года еженедельной газеты. Каждый файл - 20Мб.
Больше ничего нету.
Методика выкладывания - предложите?
Lem625 добавил 08.07.2008 в 23:16
Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.
А разница в подготовке файла pdf вот тут:
1. Генерировался для локального использования, например в качестве резервной копии для возможного перевывода пленок - качественная графика, нет внутреннего jpg сжатия растровой графики - размер файла порядка 20-30 Мб.
2. Генерировался для Инета, в качестве превьюшки - картинки 72dpi, jpg сжатие - размер pdf-а получится порядка 500кб.
В первом случае перспективы быть такому файлу проиндесированным гораздо меньше чем во втором. Вот я и советовал ранее файл пункта 1. перегенерировать в файл пункта 2. из pdf в pdf с другими настройками дистиллирования.
Еще раз для тех кто в бронепоезде:
"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.
Данный файл готовился данным пользователем явно не для Инета 😡
Оставим несчастный Адоб с его темной историей в покое...
И телеконференции заодно тоже 😂
ps истина бывает "в последней инстанции" 🤣
У ТС был вопрос про туеву хучу готовых pdf. Которые явно готовились не для Инета и оптимизировать их задача не стоИт. И явно видно что исходников нет (как это обычно и бывает).
А что касается про "голову адоб", она не нужна. Если уж нужно такое лирическое отступление "цель создания pdf-формата в принципе" (зачем кстати это-то уточнение понадобилось?) - то он создавался для целей полиграфии:
http://ru.wikipedia.org/wiki/PDF
chuprun не надо изобретать сущностей сверх необходимого. Уже я начинаю переставать понимать зачем нужен pdf.... 😂
Опять двадцать пять...
Речь то не о том. В 95% случаев PDF уже готов. И готовился явно не для Инета.
Задача как его покорректнее разместить.
И вопрос его оптимизации не стоит в принципе. А если он доступен "к оптимизации" - т.е. к редактированию - то значит он есть не в pdf, а в виде исходника того или иного формата.
(pdf редактировать "в лоб" - это сложный способ самоубийства...)
А раз есть исходник - то нужно его оптимизировать и размещать в виде html - чего извращаться с pdf?
PS "В первом случае скан надо распознать, чтобы бот смог его индексировать"
блин, а может руками перенабить? 😂
Нифига... гипертекстовая разметка вообще создавалась не для людей... а для ученых...
зато pdf хуже поддается оптимизации... тссс...
щаз Яндекс услышит - и будут в ТОПе pdf xls doc...
... и поэтому скоро Яндекс будет выдавать все pdf выше html по аналогичному запросу...
аминь 😂
Вообще-то странные ответы, "на форуме поисковых систем" 🚬
Если погуглить можно найти много чего. Потом этим "много чем" можно долго пробовать экспериментировать в поисках корректного результата.
Интересен как раз опыт использования.
У меня корректно перегнать pdf -> html не получилось, честно признаюсь. Все попытки приводили к очень корявым файлам, которые приходилось очень сильно дорабатывать "ручками".
А если речь шла про газеты - быстрее и проще оказывалось из исходника (Файла верстки, например. А не из pdf) сохранить размеченный тегами текст, конвертнуть эти теги разметки в теги HTML макросом и вставить картинки.
Может конечно, я не особо напрягался с тем, чтоб разобраться с конвертацией (когда исходная верстка есть - с ней проще оказалось). Но... зачем в принципе изобретать велосипед?
Хочется услышать (с подробностями - "чем" и "как") тех, у кого корректно, с минимальными потерями, получалось это сделать...
Вот вот. Все что-то и где-то слыхали.
И встроенные возможности в Акробате есть и плюгины вероятно есть - но все конвертации приводят к тому, что html получается безобразно кривым.
Кто достоверно пользовался, знает способ получить корректный html файл с сохранением (хотя бы базовым) форматирования текста, взаимного расположения картинок, в кодировке например charset=windows-1251 -
пожалуйста отпишитесь, поделитесь опытом.
+10
Чем, кстати, конвертировать корректно? Тут были разные мнения...