Как индексируется PDF?

6

коротыха

28 июня 2005, 14:51

1100

У Яндекса написано, что он индексирует PDF.

Конкретный вопрос - как?

Все что я видела для русскоязычных документов - это просто циферки в ссылке, и адрес документа в строке адреса. И все.

А помимо этого в пресс-релизе Adobe говориться, что есть возможность добавлять мета-теги для PDF-документов. Кто-нибудь этим занимался?

работает?

482

Sergey Petrenko

28 июня 2005, 21:12

#1

У Яндекса написано, что он индексирует PDF.

Конкретный вопрос - как?

Вас интересует алгоритм? Насколько я помню, у них самописный парсер.

Или интересуют алгоритм анализа разных частей документа? Увы, вряд ли они это расскажут.

MG

27

MaxGubin

29 июня 2005, 05:42

#2

Не знаю как у Яндекса, но я сам писал однажды индексатор PDF и могу сказать, что для русских документов, подготовленных стандартным дистиллятором в 90%, случаев извлечь текст невозможно. Точнее единственный способ - распознать его как графику, как делает FineReader у которого есть такой конвертор, но никто из поисковиков этого явно не делает. Я проверял как работает родной Adobe IFilter для MS IS - та же картина.

Почему это происходит рассказывать долго, но кратко потому, что это почти графический формат.

Теоретически в PDF можно заложить любые поля типа автор, ключевые слова и т.д, но опять же в реальных PDF этого не встречается.

Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

146

Antony69

29 июня 2005, 06:00

#3

MaxGubin:
Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).

Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Заметки SEO аналитика (http://www.seonotes.ru)

MG

27

MaxGubin

29 июня 2005, 06:20

#4

Antony69:
Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Это, конечно, шутка. Но что надо знать о стандарте кроме спецификации, а она есть? Просто он разрабатывается на 10 лет позже PDF, там все предусмотрено для поддержки языков не на латинском алфавите и т.к. это XML, то индексатор для него делается минут за 20, в этом смысле, действительно, счастье.

Какой движок для интернет-магазина Есть ли какие-нибудь плагины Яндекс кобласит

[Удален]

29 июня 2005, 10:33

#5

PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Очень даже плох ИМХО. Вернее как графический формат для сохранения заданий принтера - может и ничего, но вот тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.

33

gilza

29 июня 2005, 10:40

#6

Interitus:
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.

руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф 🙅

60

InSAn

30 июня 2005, 13:09

#7

Цитата:
Сообщение от Interitus
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.

руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф

А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)

33

gilza

30 июня 2005, 13:23

#8

InSAn:
А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.

я отвечала, не откланяясь от темы 🚬

К

6

коротыха

1 июля 2005, 14:45

#9

Товарищи, простите, может не совсем корректно задала вопрос.

Меня интересует, что индексируется Яндексом в PDF?

С поиском по PDF в интернете Яндекс вроде бы справляется: ссылка

Что же он показывает? Заголовок документа - это понятно. А вот текст, который под заголовком - это выдержки из самого документа или Description?

И если это все-таки текст самого документа, значит он все-таки справлятся с индексацией.. И как бы сделать так, чтоб и с моими документами тоже справился?

Спасибо всем, кто готов ломать над тим голову

Яндекс показывает .pdf и Влияние текста на картинке Яндекс оптимизирует сайт некорректно

MG

27

MaxGubin

1 июля 2005, 15:17

#10

Да, это тексты документа. Это "хорошие" pdfы

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Open AI тестирует память для ChatGPT