Как индексируются pdf файлы?

chuprun
На сайте с 07.11.2007
Offline
113
#51

я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Честно

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

chuprun добавил 08.07.2008 в 21:54

Maxiz:
Правда чтоль ? где результаты экспериментов с примерами?

кстати, эксперименты проводились в Google авторами статей, на которые я дал ссылки, там есть подобное утверждение.

Lem625
На сайте с 11.02.2007
Offline
134
#52
chuprun:

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

уфф... ну ладно последняя попытка.

я говорил про конкретные "файлы.pdf" топикстартера, а не про политику фирмы адоб по поводу формата pdf в целом.

Политика фирмы адоб тут вообще не при чем. Не надо утаскивать дискуссию в дебри про то, что там имела в виду фирма Адоб, да для чего был создан формат pdf... Ну какое это имеет отношение к обсуждаемому вопросу?

pdf топикстартера, как понятно из его вопроса, уже готовы и вопрос в их оптимизации не стоит. Вопрос был простой и приземленный - "как лучше всего конвертировать/выложить то, что есть".

Если и сейчас не понятно - по другому объяснить не смогу.🙄

Ну в самом деле, не будет же он переоптимизировать гигантский архив газетных файлов?

Проще заново газету издать...

PS кстати, chuprun каковы ваши действия по выкладыванию газетного, например, архива?

Дано: есть 150 файлов *.pdf - архив за 3 года еженедельной газеты. Каждый файл - 20Мб.

Больше ничего нету.

Методика выкладывания - предложите?

Lem625 добавил 08.07.2008 в 23:16

chuprun:
я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

А разница в подготовке файла pdf вот тут:

1. Генерировался для локального использования, например в качестве резервной копии для возможного перевывода пленок - качественная графика, нет внутреннего jpg сжатия растровой графики - размер файла порядка 20-30 Мб.

2. Генерировался для Инета, в качестве превьюшки - картинки 72dpi, jpg сжатие - размер pdf-а получится порядка 500кб.

В первом случае перспективы быть такому файлу проиндесированным гораздо меньше чем во втором. Вот я и советовал ранее файл пункта 1. перегенерировать в файл пункта 2. из pdf в pdf с другими настройками дистиллирования.

chuprun
На сайте с 07.11.2007
Offline
113
#53

Lem625

ладно, оставим про адоб - я просто подчеркнул, что некоторые утверждения могут быть не совсем корректны. Ну бог с ними.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

Мы, видимо дргу друга не совсем поняли.

Скан - это отсканированное изображение в графике, сделанное с помощью сканера. Оно может представлять из себя файл PDF. Конвертированный текст - сделанный например в Adobe Indesign макет, включающий в себя текст, обработанный в XML или же word файл, сконвертированный в PDF.

Так вот, если у вас скан в PDF - это как флеш без ссылок - индексировать там нечего, как и оптимизировать. Вопрос ТС стоял такой -

Как индексируются pdf файлы?

Видимо, человек хотел не просто выложить картинки, а выложить так, чтобы оно было в индексе и в выдаче хоть как-то.

И совсем неважно, какой там размер файла - если большой и не скан - то для индексирования надо разрезать на куски, а если там скан - то как ни режь, что ни делай - индексировать там кроме имени файла и тайтла - нечего. Пусто там для бота.

Если скан - то надо распознавать текст, тогда все будет хорошо. Если текст - то не надо распознавать. Естественно, после распознавания размер уменьшиться, так как это уже будут не картинки.

Если вернуться к вашей смоделированной задаче и предположить, что все газеты - сканы, то

1. Распознам тексты, правим. Режем на куски, если размеры большие, в соответствии с требованиями ПС.

2. Ели надо, то оптимизируем под НЧ. Хотя бы Тайтлами и мета+названия файлов, если англ. - чтобы не менять содержание.

3. Положим, там не скан, как вы сказали, а уже распознанный текст (прямо с макетов экспортировали), но все равно большого размера. Делаем пакетную оптимизацию рисунков в PDF, софта достаточно, тем самым уменьшаем размер, далее опять выкладываем как есть.

Экспорт в html при блочной верстке в макете (газета же) будет гемморойным, наверняка затусуются и фреймы, проблемы с кодировками могут быть (в зависимости от шрифтов, тогда юзаем pdffactory) и размерчик может быть опять же неадекватен.

Lem625
На сайте с 11.02.2007
Offline
134
#54
chuprun:
Lem625
Скан - это отсканированное изображение в графике, сделанное с помощью сканера.

Спасибо за разъяснение 😎

знал что отсканированное, но не знал что "в графике".

это какой-то "абзац" на букву "п"

PS

def: веревка - это вервие простое.

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#55
voodoo911:
Может ли быть ПР у pdf файла?
windofor:
Конечно, как и у любого проиндексированного ПС документа (страницы)

Неужели правда?

voodoo911
На сайте с 11.03.2008
Offline
157
#56
GeorgeWhite:
Неужели правда?

http://sps.ru/file/0034/6516/index.pdf

первое что попалось.

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#57
voodoo911:
http://sps.ru/file/0034/6516/index.pdf
первое что попалось.

Нормально так... Спасибо.

wilelf
На сайте с 27.06.2005
Offline
322
#58

Тему не осилил...

У каждого документа (пдф, ворд) есть свойства (соответствующая вкладка), в которой можно прописать и тайтл и дескрипшн и прочее. Советую пользовать.

И еще один момент: при индексации таких документов размер имеет значение, поэтому постарайтесь ограничить их объем.

Агентство контекстной рекламы НеВсем ( https://www.nevsem.ru/ ) Пишу платно статьи для Хабра. Мой профиль ( https://habr.com/ru/users/wilelf/ )
GeorgeWhite
На сайте с 27.05.2008
Offline
131
#59
wilelf:
У каждого документа (пдф, ворд) есть свойства (соответствующая вкладка), в которой можно прописать и тайтл и дескрипшн и прочее. Советую пользовать.

Ценные сведения, спасибо.

MaxZXXXZ
На сайте с 05.08.2008
Offline
6
#60

Поделюсь своим опытом. Меня от этих педеэфничков трясет уже... Последний сайт: 2 с лихом тыщщи технических статей, каждая со своим педеэфничком 😡 Это третий такой сайт. Ну и вот глядя и сравнивая с первым: не вешайте очень тяжелые pdf - часто именно они не индексируются. Хотя тут есть вопросы - иногда нормально проходят... Вообщем есть в Acrobat 8.0 функция по оптимизации, не ленитесь - уменьшите массу файлега: и не только картинок, пробегитесь по всем параметрам обязательно. Это пакетно можно сделать. Дальше по ключевикам: не знаю, не ставил - и так нормально схавали и Гугля, и Яндс. Смотрите на шрифты еще: часто полиграфисты ставят какие-нить безумно странные шрифты, естесно они не будут читаться, но это скорее проблема верстки из pdf в html, а это уже отдельный мегагемор. У меня компилированные pdf-файлы были и чесн говоря как там в них сменить шрифты на системные я так и не нашел.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий