Яндекс понимает PDF и RTF

F

116

funsad

20 февраля 2003, 14:51

6785

Сегодня Яндекс стал искать не только по html-документам, но и по PDF/RTF.

С уважением,

Александр Садовский.

L

47

lexus

20 февраля 2003, 15:24

#1

Вопрос к Илье Сегаловичу.

Если не секрет, фильтр для pdf - разрабатывали сами,

лицензировали у Adobe или у какой-нибудь другой компании?

Еще очень интересно, какое количество pdf-файлов в Рунете?

С уважением, Алексей Чуксин Украинская поисковая система -Украина (http://meta.ua/)

F

116

funsad

20 февраля 2003, 16:49

#2

Как писал lexus
Еще очень интересно, какое количество pdf-файлов в Рунете?

Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.

С уважением,

Александр Садовский.

I

80

iseg

20 февраля 2003, 17:12

#3

Как писал lexus
Если не секрет, фильтр для pdf - разрабатывали сами, лицензировали у Adobe или у какой-нибудь другой компании?

Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.

Еще очень интересно, какое количество pdf-файлов в Рунете?

Александр уже ответил, что в базе примерно 50 и 10 тысяч. А в Рунете?...

Трудно сказать, посмотрим сколько робот еще нагребет в ближайшее время. Кроме того, есть ведь и огромные сайты, чуть ли не целиком из PDF-ов. Мы их пока прошли весьма поверхностно.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

7

kostik

20 февраля 2003, 17:35

#4

Как писал iseg

Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.

Да есть такие open source вещи: pdflib, например.

L

47

lexus

21 февраля 2003, 09:12

#5

Парсеры PDF и RTF - свои.

Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?

Или на территории Росии они не имеют силы?

I

80

iseg

21 февраля 2003, 14:10

#6

Как писал lexus
Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?

Следует отделять чтение от записи, а упаковку от распаковки.

Наш парсер не пишет файлы в формате Adobe, не пакует данные чужими запатентованными алгоритмами и полностью исключает из рассмотрения зашифрованные или закрытые от публичного просмотра файлы.

Мы вообще не знаем такого слова: "шифрование" или "защита" :)

Если Вы ткнете нас носом в авторский запрет на распаковку архивов или на чтение PDF, вы нас очень обяжете.

Думаю, что если бы такой запрет существовал, то он бы 1) оказался бы под огнем критики и 2) вызвал бы цепочку судебных процессов со стороны пользователей.

Или на территории Росии они не имеют силы?

Нам неизвестны патенты, запрещающие читать файлы PDF.

Речь здесь не идет о "случае Склярова", когда нарушалась воля авторов, явно выраженная в форме установленной защиты от копирования.

С уважением,

Илья

P.S.

Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.

==================

Adobe gives copyright permission to anyone to:

• Prepare files in which the file content conforms to the Portable Document

Format.

• Write drivers and applications that produce output represented in the Portable

Document Format.

• Write software that accepts input in the form of the Portable Document Format

and displays the results, prints the results, or otherwise interprets a file

represented in the Portable Document Format.

===================

Есть еще вопросы?

K

80

Keva

21 февраля 2003, 14:38

#7

Как писал funsad

Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.

Саше Садовскому: мне кажется, ты несколько заблуждаешься, подменяя суть вопроса :) Аргумент очень простой: утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :) На самом деле он содержит их M :)

По нашим данным, в Рунете их 706 тысяч, но среди них очень много растровых, иноязычных и точных копий (дублей).

Илье Сегаловичу: поздравляю с достижением. Жаль, что тебя не было в субботу на распитии пива в Пятом Океане :) Пиво удалось :)

С уважением, Андрей Коваленко aka Keva

K

7

kostik

21 февраля 2003, 14:44

#8

Как писал iseg

P.S.
Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.
===================
...................
===================

Есть еще вопросы?

Прочитать - конечно сможем !!!

А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?

P.S. Надеюсь GPL-лицензию цитировать не надо ?

K

80

Keva

21 февраля 2003, 14:55

#9

Как писал kostik
...как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?

Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.

Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.

Помощь в фильтрации ботов Видео находится за пределами Кошелек для USDT

I

80

iseg

21 февраля 2003, 15:15

#10

Как писал kostik
А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода?

Никак не отнесемся.

P.S. Надеюсь GPL-лицензию цитировать не надо ?

Почему же?

Что такое Power BI и зачем это нужно бизнесу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов