Как индексируется PDF?

12
К
На сайте с 28.06.2005
Offline
6
1040

У Яндекса написано, что он индексирует PDF.

Конкретный вопрос - как?

Все что я видела для русскоязычных документов - это просто циферки в ссылке, и адрес документа в строке адреса. И все.

А помимо этого в пресс-релизе Adobe говориться, что есть возможность добавлять мета-теги для PDF-документов. Кто-нибудь этим занимался?

работает?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#1
У Яндекса написано, что он индексирует PDF.

Конкретный вопрос - как?

Вас интересует алгоритм? Насколько я помню, у них самописный парсер.

Или интересуют алгоритм анализа разных частей документа? Увы, вряд ли они это расскажут.

MG
На сайте с 18.10.2002
Offline
27
#2

Не знаю как у Яндекса, но я сам писал однажды индексатор PDF и могу сказать, что для русских документов, подготовленных стандартным дистиллятором в 90%, случаев извлечь текст невозможно. Точнее единственный способ - распознать его как графику, как делает FineReader у которого есть такой конвертор, но никто из поисковиков этого явно не делает. Я проверял как работает родной Adobe IFilter для MS IS - та же картина.

Почему это происходит рассказывать долго, но кратко потому, что это почти графический формат.

Теоретически в PDF можно заложить любые поля типа автор, ключевые слова и т.д, но опять же в реальных PDF этого не встречается.

Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).

Antony69
На сайте с 16.09.2004
Offline
146
#3
MaxGubin:
Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).

Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Заметки SEO аналитика (http://www.seonotes.ru)
MG
На сайте с 18.10.2002
Offline
27
#4
Antony69:
Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Это, конечно, шутка. Но что надо знать о стандарте кроме спецификации, а она есть? Просто он разрабатывается на 10 лет позже PDF, там все предусмотрено для поддержки языков не на латинском алфавите и т.к. это XML, то индексатор для него делается минут за 20, в этом смысле, действительно, счастье.

[Удален]
#5
PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.

Очень даже плох ИМХО. Вернее как графический формат для сохранения заданий принтера - может и ничего, но вот тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.

gilza
На сайте с 07.07.2004
Offline
33
#6
Interitus:
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.

руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф 🙅

InSAn
На сайте с 13.01.2003
Offline
60
#7
Цитата:
Сообщение от Interitus
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.


руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф

А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)
gilza
На сайте с 07.07.2004
Offline
33
#8
InSAn:
А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.

я отвечала, не откланяясь от темы 🚬

К
На сайте с 28.06.2005
Offline
6
#9

Товарищи, простите, может не совсем корректно задала вопрос.

Меня интересует, что индексируется Яндексом в PDF?

С поиском по PDF в интернете Яндекс вроде бы справляется: ссылка

Что же он показывает? Заголовок документа - это понятно. А вот текст, который под заголовком - это выдержки из самого документа или Description?

И если это все-таки текст самого документа, значит он все-таки справлятся с индексацией.. И как бы сделать так, чтоб и с моими документами тоже справился?

Спасибо всем, кто готов ломать над тим голову

MG
На сайте с 18.10.2002
Offline
27
#10

Да, это тексты документа. Это "хорошие" pdfы

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий