Lem625

Lem625
Рейтинг
169
Регистрация
11.02.2007
chuprun:

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

уфф... ну ладно последняя попытка.

я говорил про конкретные "файлы.pdf" топикстартера, а не про политику фирмы адоб по поводу формата pdf в целом.

Политика фирмы адоб тут вообще не при чем. Не надо утаскивать дискуссию в дебри про то, что там имела в виду фирма Адоб, да для чего был создан формат pdf... Ну какое это имеет отношение к обсуждаемому вопросу?

pdf топикстартера, как понятно из его вопроса, уже готовы и вопрос в их оптимизации не стоит. Вопрос был простой и приземленный - "как лучше всего конвертировать/выложить то, что есть".

Если и сейчас не понятно - по другому объяснить не смогу.🙄

Ну в самом деле, не будет же он переоптимизировать гигантский архив газетных файлов?

Проще заново газету издать...

PS кстати, chuprun каковы ваши действия по выкладыванию газетного, например, архива?

Дано: есть 150 файлов *.pdf - архив за 3 года еженедельной газеты. Каждый файл - 20Мб.

Больше ничего нету.

Методика выкладывания - предложите?

Lem625 добавил 08.07.2008 в 23:16

chuprun:
я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

А разница в подготовке файла pdf вот тут:

1. Генерировался для локального использования, например в качестве резервной копии для возможного перевывода пленок - качественная графика, нет внутреннего jpg сжатия растровой графики - размер файла порядка 20-30 Мб.

2. Генерировался для Инета, в качестве превьюшки - картинки 72dpi, jpg сжатие - размер pdf-а получится порядка 500кб.

В первом случае перспективы быть такому файлу проиндесированным гораздо меньше чем во втором. Вот я и советовал ранее файл пункта 1. перегенерировать в файл пункта 2. из pdf в pdf с другими настройками дистиллирования.

Еще раз для тех кто в бронепоезде:

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

Данный файл готовился данным пользователем явно не для Инета 😡

Оставим несчастный Адоб с его темной историей в покое...

И телеконференции заодно тоже 😂

ps истина бывает "в последней инстанции" 🤣

chuprun:
Lem625,
ну, чтобы уточнить, в чем вопрос, достаточно посмотреть на сообщение топикстартера. Для чего готтовился PDF изначально, вы также знать 100% не можете, не вы его разрабатывали и знать не знаете, что было в голове Adobe, какие стратегические планы.

У ТС был вопрос про туеву хучу готовых pdf. Которые явно готовились не для Инета и оптимизировать их задача не стоИт. И явно видно что исходников нет (как это обычно и бывает).

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

А что касается про "голову адоб", она не нужна. Если уж нужно такое лирическое отступление "цель создания pdf-формата в принципе" (зачем кстати это-то уточнение понадобилось?) - то он создавался для целей полиграфии:

http://ru.wikipedia.org/wiki/PDF

chuprun не надо изобретать сущностей сверх необходимого. Уже я начинаю переставать понимать зачем нужен pdf.... 😂

chuprun:
если поискать про google, то некторые уверяют, что правила внутренней оптимизации для pdf файлов действуют, даже дейтвуют фильтры дубль контента
http://www.smallbusinesssem.com/optimizing-pdfs-for-seo/288/
http://www.seoresource.net/SEO-your-PDFs.htm

Так что документы "реального мира" вполне стоит оптимизировать:)
- название файла
- тайтл
- плотность ключевиков
- мета инфо в акробате
- подписи к картинкам
- заголовки (размер букв)

Естественно, PDF файл может бысть сделан несколькими разными способами, как скан без распознавания, о чем говорят некоторые, и как конвертированный документ, например из ворда. В первом случае скан надо распознать, чтобы бот смог его индексировать, во втором - распознавать не надо, там уже есть текст.

Опять двадцать пять...

Речь то не о том. В 95% случаев PDF уже готов. И готовился явно не для Инета.

Задача как его покорректнее разместить.

И вопрос его оптимизации не стоит в принципе. А если он доступен "к оптимизации" - т.е. к редактированию - то значит он есть не в pdf, а в виде исходника того или иного формата.

(pdf редактировать "в лоб" - это сложный способ самоубийства...)

А раз есть исходник - то нужно его оптимизировать и размещать в виде html - чего извращаться с pdf?

PS "В первом случае скан надо распознать, чтобы бот смог его индексировать"

блин, а может руками перенабить? 😂

drv:

А вот это вообще неправда. Формат PDF создавался именно для машин (печатных машин), для людей же есть "язык гипертекстовой разметки". ;)

Нифига... гипертекстовая разметка вообще создавалась не для людей... а для ученых...

Слава Шевцов:
Ужас. Юзабилити у PDF для интернета хуже html 🚬

зато pdf хуже поддается оптимизации... тссс...

щаз Яндекс услышит - и будут в ТОПе pdf xls doc...

Слава Шевцов:
PDF делается только для людей.

... и поэтому скоро Яндекс будет выдавать все pdf выше html по аналогичному запросу...

аминь 😂

Maxiz:
Adobe Acrobat Pro Extended
drv - я пишу про 9 pro версию ,а не про обычный "Акробат ридер 5"
ещё Abby Fine reader (последний) умеет - там поподробнее настройки экспорта в ХТМЛ

Maxiz добавил 07.07.2008 в 11:36
Вообще конечно странные вопросы на форуме поисковых систем. Если погуглить ,то можно обнаружить существование таких прог, как:
Advanced PDF to HTML
Comfortable PDF to HTML
Easy PDF to HTML

Вообще-то странные ответы, "на форуме поисковых систем" 🚬

Если погуглить можно найти много чего. Потом этим "много чем" можно долго пробовать экспериментировать в поисках корректного результата.

Интересен как раз опыт использования.

У меня корректно перегнать pdf -> html не получилось, честно признаюсь. Все попытки приводили к очень корявым файлам, которые приходилось очень сильно дорабатывать "ручками".

А если речь шла про газеты - быстрее и проще оказывалось из исходника (Файла верстки, например. А не из pdf) сохранить размеченный тегами текст, конвертнуть эти теги разметки в теги HTML макросом и вставить картинки.

Может конечно, я не особо напрягался с тем, чтоб разобраться с конвертацией (когда исходная верстка есть - с ней проще оказалось). Но... зачем в принципе изобретать велосипед?

Хочется услышать (с подробностями - "чем" и "как") тех, у кого корректно, с минимальными потерями, получалось это сделать...

Вот вот. Все что-то и где-то слыхали.

И встроенные возможности в Акробате есть и плюгины вероятно есть - но все конвертации приводят к тому, что html получается безобразно кривым.

Кто достоверно пользовался, знает способ получить корректный html файл с сохранением (хотя бы базовым) форматирования текста, взаимного расположения картинок, в кодировке например charset=windows-1251 -

пожалуйста отпишитесь, поделитесь опытом.

Слава Шевцов:
Lem625, зачем такие проблемы, если PDF можно сконвертировать в HTML и выложить на сайте обе версии? PDF для скачивания и печати, а HTML для беглого просмотра и для поисковиков.

+10

Чем, кстати, конвертировать корректно? Тут были разные мнения...

Всего: 1228