Исходники не нужны, если у вас сканы. Посмотрите на сообщение топикстартера - Поисковые технологии

Как индексируются pdf файлы?

voodoo911 · 2008-07-02T12:34:57.0000000Z

Каким образом индексируются pdf фалы? Есть большой архив газетных полос в pdf. Гнать его в html геморно. есть идея выложить его в pdf. Может кто то сталкивался с подобной темой?

113

chuprun

8 июля 2008, 07:05

#41

Слава Шевцов:
А смысл? PDF делается только для людей. Если начнёте затачивать документы реалього мира под поисковики, Вас могут неправильно понять 🚬

если поискать про google, то некторые уверяют, что правила внутренней оптимизации для pdf файлов действуют, даже дейтвуют фильтры дубль контента

http://www.smallbusinesssem.com/optimizing-pdfs-for-seo/288/

http://www.seoresource.net/SEO-your-PDFs.htm

Так что документы "реального мира" вполне стоит оптимизировать:)

- название файла

- тайтл

- плотность ключевиков

- мета инфо в акробате

- подписи к картинкам

- заголовки (размер букв)

Естественно, PDF файл может бысть сделан несколькими разными способами, как скан без распознавания, о чем говорят некоторые, и как конвертированный документ, например из ворда. В первом случае скан надо распознать, чтобы бот смог его индексировать, во втором - распознавать не надо, там уже есть текст.

169

Lem625

8 июля 2008, 07:19

#42

chuprun:
если поискать про google, то некторые уверяют, что правила внутренней оптимизации для pdf файлов действуют, даже дейтвуют фильтры дубль контента
http://www.smallbusinesssem.com/optimizing-pdfs-for-seo/288/
http://www.seoresource.net/SEO-your-PDFs.htm

Так что документы "реального мира" вполне стоит оптимизировать:)
- название файла
- тайтл
- плотность ключевиков
- мета инфо в акробате
- подписи к картинкам
- заголовки (размер букв)

Естественно, PDF файл может бысть сделан несколькими разными способами, как скан без распознавания, о чем говорят некоторые, и как конвертированный документ, например из ворда. В первом случае скан надо распознать, чтобы бот смог его индексировать, во втором - распознавать не надо, там уже есть текст.

Опять двадцать пять...

Речь то не о том. В 95% случаев PDF уже готов. И готовился явно не для Инета.

Задача как его покорректнее разместить.

И вопрос его оптимизации не стоит в принципе. А если он доступен "к оптимизации" - т.е. к редактированию - то значит он есть не в pdf, а в виде исходника того или иного формата.

(pdf редактировать "в лоб" - это сложный способ самоубийства...)

А раз есть исходник - то нужно его оптимизировать и размещать в виде html - чего извращаться с pdf?

PS "В первом случае скан надо распознать, чтобы бот смог его индексировать"

блин, а может руками перенабить? 😂

113

chuprun

8 июля 2008, 07:44

#43

Lem625,

И вопрос его оптимизации не стоит в принципе.

ну, чтобы уточнить, в чем вопрос, достаточно посмотреть на сообщение топикстартера. Для чего готтовился PDF изначально, вы также знать 100% не можете, не вы его разрабатывали и знать не знаете, что было в голове Adobe, какие стратегические планы.

Опять же, вопрос оптимизации PDF встал еще на первой странице от других участников, я просто поддержал разговор.

В 95% случаев PDF уже готов.

Ну раз готов, значит где-то есть исходники или это скан. Со сканом все и так знают, что делать, не так ли?

А раз есть исходник - то нужно его оптимизировать и размещать в виде html - чего извращаться с pdf?

К тому же, я часто сталкивался с ситуацией, когда размещение информации в PDF куда удобнее, чем в html. Как правило, это отчеты, исследования, техниеская документация и так далее. Поэтому, не всегда, когда есть возможность и исходник - все перегонять в html полезно, удобно и "нужно".

блин, а может руками перенабить?

Набейте руками, если хотите, занимается распознаванием газетных полос - как сканить томики Пушкина, но все же легче, чем руками, не правда ли?

157

voodoo911

8 июля 2008, 07:50

#44

Суть вопроса была в том - индексируется, и каким образом. Поскольку в моем случае выкладывается такой обьем pdf что о ручной обработке говорить не стОит.

Если есть вариант выкладывани - я за хтмл.

Как убедить Google в Падает memcached Падают просмотры на ютуб

113

chuprun

8 июля 2008, 08:03

#45

voodoo911:
Суть вопроса была в том - индексируется, и каким образом. Поскольку в моем случае выкладывается такой обьем pdf что о ручной обработке говорить не стОит.
Если есть вариант выкладывани - я за хтмл.

ну, думаю, проблема решена?

подведем итоги:

- индексируются, по тексту

- если у вас сканы, т.е. газеты в картинках и потом просто в pdf засунуты, то надо распозновать до текста.

157

voodoo911

8 июля 2008, 08:15

#46

chuprun:
ну, думаю, проблема решена?
подведем итоги:
- индексируются, по тексту
- если у вас сканы, т.е. газеты в картинках и потом просто в pdf засунуты, то надо распозновать до текста.

Проблема решена. Мои итоги:

1. PDF индекируется как тескт (только приусловии что он так был создан)

2. Для pdf действуют те же "законы", что и для простых страниц.

Открыл для себя нового: Тот факт, что можно задавать метаттеги для документа.

Ну вроде как все. Разобрались :)

169

Lem625

8 июля 2008, 08:39

#47

chuprun:
Lem625,
ну, чтобы уточнить, в чем вопрос, достаточно посмотреть на сообщение топикстартера. Для чего готтовился PDF изначально, вы также знать 100% не можете, не вы его разрабатывали и знать не знаете, что было в голове Adobe, какие стратегические планы.

У ТС был вопрос про туеву хучу готовых pdf. Которые явно готовились не для Инета и оптимизировать их задача не стоИт. И явно видно что исходников нет (как это обычно и бывает).

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

А что касается про "голову адоб", она не нужна. Если уж нужно такое лирическое отступление "цель создания pdf-формата в принципе" (зачем кстати это-то уточнение понадобилось?) - то он создавался для целей полиграфии:

http://ru.wikipedia.org/wiki/PDF

chuprun не надо изобретать сущностей сверх необходимого. Уже я начинаю переставать понимать зачем нужен pdf.... 😂

113

chuprun

8 июля 2008, 09:06

#48

У ТС был вопрос про туеву хучу готовых pdf. Которые явно готовились не для Инета и оптимизировать их задача не стоИт. И явно видно что исходников нет (как это обычно и бывает).

Вот именно, вы же обрисовали задачу как

Задача как его покорректнее разместить.

, эта задача также не стояла топикстартером, именно это я подчеркнул.

Если же посмотреть по постам ниже, про оптимизацию был задан вопрос другими участниками, на что я и давал такие ответы, все в рамках логичности.

зачем кстати это-то уточнение понадобилось

Ну вы указали, мол, что

И готовился явно не для Инета.

Опять же я подчеркнул, что вы знать не можете этого. Во-первых, в Википедии написано, что

первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно

Это говорит о том, что сначала создали формат, а уж потом оборудование могло его обрабатывать. Другими словами, изначально цель может такая и стояла, а уж как пойдет - неизвестно.

Во-вторых, то, что написано в Википедии - это не истина в первой инстанции. А уж тем более говорить, что именно это задумывалось как развитие стратегического направления компании Adobe - попросту смешно, так как вы этого на самом деле никогда вероятно не узнаете. Но, с другой стороны, я не отрицаю, что это может бытьи так. Но как это относиться к тому, что

И вопрос его оптимизации не стоит в принципе.

?

Вы нелогично построили цепочку рассуждений - Если не для инета формат - задача оптимизации не стоит - не надо оптимизировать.

Это некорректно.

в 1997 году о видео-телеконференциях через Интернет только мечтали и они были практически недоступны для обычных пользователей, но это же не повод, чтобы не стремится к решению задачи.

chuprun добавил 08.07.2008 в 13:11

У ТС был вопрос про туеву хучу готовых pdf. Которые явно готовились не для Инета и оптимизировать их задача не стоИт. И явно видно что исходников нет (как это обычно и бывает).

Исходники и не нужны бы были, если бы это были не сканы, а текст. Вопрос был поставлен - индексируются ли? Ответ - да, а если индексируются, то логично предположить, что задача оптимизации вполне может стоять?

169

Lem625

8 июля 2008, 09:16

#49

Еще раз для тех кто в бронепоезде:

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

Данный файл готовился данным пользователем явно не для Инета 😡

Оставим несчастный Адоб с его темной историей в покое...

И телеконференции заодно тоже 😂

ps истина бывает "в последней инстанции" 🤣

218

Maxiz

8 июля 2008, 09:18

#50

voodoo911:
Проблема решена. Мои итоги:
2. Для pdf действуют те же "законы", что и для простых страниц.

Правда чтоль ? где результаты экспериментов с примерами?

Что делать, если ваша email-рассылка попала в спам

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как индексируются pdf файлы?