Яндекс понимает PDF и RTF

12 3
F
На сайте с 15.11.2000
Offline
116
6696

Сегодня Яндекс стал искать не только по html-документам, но и по PDF/RTF.

С уважением,

Александр Садовский.

L
На сайте с 02.07.2001
Offline
47
#1

Вопрос к Илье Сегаловичу.

Если не секрет, фильтр для pdf - разрабатывали сами,

лицензировали у Adobe или у какой-нибудь другой компании?

Еще очень интересно, какое количество pdf-файлов в Рунете?

С уважением, Алексей Чуксин Украинская поисковая система -Украина (http://meta.ua/)
F
На сайте с 15.11.2000
Offline
116
#2
Как писал lexus
Еще очень интересно, какое количество pdf-файлов в Рунете?

Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.

С уважением,

Александр Садовский.

I
На сайте с 15.12.2000
Offline
80
#3
Как писал lexus
Если не секрет, фильтр для pdf - разрабатывали сами, лицензировали у Adobe или у какой-нибудь другой компании?

Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.

Еще очень интересно, какое количество pdf-файлов в Рунете?

Александр уже ответил, что в базе примерно 50 и 10 тысяч. А в Рунете?...

Трудно сказать, посмотрим сколько робот еще нагребет в ближайшее время. Кроме того, есть ведь и огромные сайты, чуть ли не целиком из PDF-ов. Мы их пока прошли весьма поверхностно.

K
На сайте с 31.07.2002
Offline
7
#4
Как писал iseg


Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.

Да есть такие open source вещи: pdflib, например.

L
На сайте с 02.07.2001
Offline
47
#5
Парсеры PDF и RTF - свои.

Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?

Или на территории Росии они не имеют силы?

I
На сайте с 15.12.2000
Offline
80
#6
Как писал lexus
Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?

Следует отделять чтение от записи, а упаковку от распаковки.

Наш парсер не пишет файлы в формате Adobe, не пакует данные чужими запатентованными алгоритмами и полностью исключает из рассмотрения зашифрованные или закрытые от публичного просмотра файлы.

Мы вообще не знаем такого слова: "шифрование" или "защита" :)

Если Вы ткнете нас носом в авторский запрет на распаковку архивов или на чтение PDF, вы нас очень обяжете.

Думаю, что если бы такой запрет существовал, то он бы 1) оказался бы под огнем критики и 2) вызвал бы цепочку судебных процессов со стороны пользователей.

Или на территории Росии они не имеют силы?

Нам неизвестны патенты, запрещающие читать файлы PDF.

Речь здесь не идет о "случае Склярова", когда нарушалась воля авторов, явно выраженная в форме установленной защиты от копирования.

С уважением,

Илья

P.S.

Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.

==================

Adobe gives copyright permission to anyone to:

• Prepare files in which the file content conforms to the Portable Document

Format.

• Write drivers and applications that produce output represented in the Portable

Document Format.

• Write software that accepts input in the form of the Portable Document Format

and displays the results, prints the results, or otherwise interprets a file

represented in the Portable Document Format.

===================

Есть еще вопросы?

K
На сайте с 27.11.2000
Offline
80
#7
Как писал funsad

Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.

Саше Садовскому: мне кажется, ты несколько заблуждаешься, подменяя суть вопроса :) Аргумент очень простой: утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :) На самом деле он содержит их M :)

По нашим данным, в Рунете их 706 тысяч, но среди них очень много растровых, иноязычных и точных копий (дублей).

Илье Сегаловичу: поздравляю с достижением. Жаль, что тебя не было в субботу на распитии пива в Пятом Океане :) Пиво удалось :)

С уважением, Андрей Коваленко aka Keva
K
На сайте с 31.07.2002
Offline
7
#8
Как писал iseg


P.S.
Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.
===================
...................
===================

Есть еще вопросы?

Прочитать - конечно сможем !!!

А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?

P.S. Надеюсь GPL-лицензию цитировать не надо ?

K
На сайте с 27.11.2000
Offline
80
#9
Как писал kostik
...как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?

Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.

Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.

I
На сайте с 15.12.2000
Offline
80
#10
Как писал kostik
А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода?

Никак не отнесемся.

P.S. Надеюсь GPL-лицензию цитировать не надо ?

Почему же?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий