Как индексируются pdf файлы?

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#11
chuprun:
По НЧ есть практика, а вот что с внутренней оптимизацией документа? То же? Плотность, курсив, количество исходящих ссылок? Есть у кого что сказать?

Вы там что курите, уважаемые оптимизаторы pdf-документов под Яндекс?

Неизменность точки зрения неизменно порождает иллюзию понимания.
Lem625
На сайте с 11.02.2007
Offline
169
#12
center:
Текст видимый обычному пользователю, на самом деле является картинкой.
Поэтому необходимо сохранять данные в pdf в текстовом виде.

Глупость.

Текст, "видимый обычному пользователю" в pdf иногда может быть "картинкой" - когда

он переведен "в кривые", или он растровый изначально - скажем скан.

Но в подавляющем большинстве случаев это обычный текст (особенно когда речь идет про pdf газеты), который замечательно индексируется.

Советую перед выкладыванием pdf-а убедиться, что размер файла не слишком велик из-за излишне высокого для Инета качества фоток (300 dpi по умолчанию вероятно было - как всегда для полиграфии).

Оптимальнее передистиллировать его под, например, 150 dpi с "jpg сжатием" встроенных картинок.

D
На сайте с 22.12.2006
Offline
91
drv
#13
walker:
есть мега-продукт Abbyy PDF Transformer (реально уникальный!), стоит порядка $30 на рабочее место и, говорят, $200 - серверная лицензия

конвертирует PDF в текст (распознает картинку) вполне приличного качества для целей индексирования

а уж затем как-нибудь свяжете текстовую страничку со своим PDF

А Вы пользовались этой программой???

Когда-то потратил немало сил и времени для поиска такой мега-программы, в итоге все закончилось тем, что просто мышкой выделял текст и копировал его в html редактор. Так получалось быстрее, чем исправлять всю верстку после непонятно как работающих прог (включая и Abbyy PDF Transformer, которая вовсе не уникальна, т.к. есть и лучше).

Советую посадить выносливого человека, который перегонит руками все ваши pdf в html, если хотите, чтобы текст страниц просматривали кроме поисковиков ещё и пользователи. ;)

Arsh
На сайте с 21.03.2007
Offline
199
#14
Lem625:
Но в подавляющем большинстве случаев это обычный текст

Надо ж как мне не везет! Постоянно оказываюсь в меньшинстве случаев :(

-----

По теме - не любит Яндекс этот формат. В панели веб-мастера часто пишет ошибку "слишком длинный документ".

Lem625
На сайте с 11.02.2007
Offline
169
#15
Arsh:
Надо ж как мне не везет! Постоянно оказываюсь в меньшинстве случаев :(
-----
По теме - не любит Яндекс этот формат. В панели веб-мастера часто пишет ошибку "слишком длинный документ".

Вот-вот. А может "не любит" как раз потому, что в момент генерации pdf-а никто не планировал его в Инет совать?... И соответственно размер файла "в мегабайтах" получается неприлично большим.

Постоянно вижу на сайтах небольших газет pdf-ы гигантских размеров...

8-страничная газетенка у них получается 10-20 Мб.

А если грамотно передистиллерить pdf, то получится 500-800кб, и графика более-менее в живых останется, и поисковики более вероятно схавают такой файл.

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#16

Lem625, зачем такие проблемы, если PDF можно сконвертировать в HTML и выложить на сайте обе версии? PDF для скачивания и печати, а HTML для беглого просмотра и для поисковиков.

[Удален]
#17
Слава Шевцов:
Lem625, зачем такие проблемы, если PDF можно сконвертировать в HTML и выложить на сайте обе версии? PDF для скачивания и печати, а HTML для беглого просмотра и для поисковиков.

Вот именно. Просто и красиво 🚬

Lem625
На сайте с 11.02.2007
Offline
169
#18
Слава Шевцов:
Lem625, зачем такие проблемы, если PDF можно сконвертировать в HTML и выложить на сайте обе версии? PDF для скачивания и печати, а HTML для беглого просмотра и для поисковиков.

+10

Чем, кстати, конвертировать корректно? Тут были разные мнения...

Maxiz
На сайте с 04.01.2008
Offline
218
#19

Adobe Acrobat Pro Extended

D
На сайте с 22.12.2006
Offline
91
drv
#20
Maxiz:
Adobe Acrobat Pro Extended

На сколько я помню, она может только в "Word" перегонять pdf-ки, причем выдернуть из полученного результата текст с форматированием и перевести в html ещё тяжелее, чем проделать это напрямую с pdf-кой...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий