Яндекс понимает PDF и RTF

123
L
На сайте с 02.07.2001
Offline
47
#11

Илья, спасибо за развернутый ответ.

Вопрос был без подначки и необоснованных подозрений. :)

Для нас он совсем не праздный.

Советовались на эту тему с юристами,

но однозначного ответа так и не удалось получить.

Поэтому интересна Ваша позиция на этот счет.

К примеру, есть патент, защищающий метод идентификации слов в pdf

(5,832,530)

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/srchnum.htm&r=1&f=G&l=50&s1=5,832,530.WKU.&OS=PN/5,832,530&RS=PN/5,832,530

С уважением, Алексей Чуксин Украинская поисковая система -Украина (http://meta.ua/)
I
На сайте с 15.12.2000
Offline
80
#12
Как писал lexus
К примеру, есть патент, защищающий метод идентификации слов в pdf

Какое отношение этот патент имеет к пункт 1.7 лицензии на PDF, которую я процитировал?

В этой же лицензии (часть документации к PDF) четко проговорена их позиция по отношению к патентам. В том же самом пункте 1.7

Смысл (не цитирую, лень) примерно такой: "уважайте наши патенты, указывайте наш копирайт в исходниках, в которых есть наши (защищенные нашими патентами) структуры данных".

K
На сайте с 31.07.2002
Offline
7
#13
Как писал Keva


Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.

Для суда - являются - ну если кому-то конечно интересно :)


Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.

С этим скорее всего соглашусь.

L
На сайте с 02.07.2001
Offline
47
#14
В этой же лицензии (часть документации к PDF) четко проговорена их позиция по отношению к патентам.

А с другой стороны в описании формата они пишут:

Note:The LZW compression method is the subject of U.S.patent number 4,558,302

and corresponding foreign patents owned by the Unisys Corporation.Adobe Systems

has licensed this patent for use in its Acrobat products;however,independent soft-

ware vendors (ISVs)may be required to license this patent directly from Unisys to

develop software that uses the LZW method to compress data in PDF files.

А патент на LZW, если я не ошибаюсь защищает алгоритм и компрессии, и декомпрессии

I
На сайте с 15.12.2000
Offline
80
#15
Как писал lexus
to develop software that uses the LZW method to compress data

Вот именно. compress. Мы этого не делаем нигде.

А вообще у вас какое-то неправильное представление о том, что такое патент.

Патент и лицензия на его использование есть разные вещи. Есть масса патентов, лицензия на которые бесплатна.

Мы поступаем (я надеюсь) совершенно корректно, в соответствии с лицензиями все соответствующих производителей софта.

L
На сайте с 02.07.2001
Offline
47
#16
Вот именно. compress. Мы этого не делаем нигде.
А вообще у вас какое-то неправильное представление о том, что такое патент.

Вроде бы compress и decompress - один и тот же алгоритм, на который один патент?

Насколько бесплатна лицензия на декомпрессию LZW я, честно говоря, еще не разбирался.

А еще есть copyrighted pdf, защищенный криптоалгоритмом RC4.

Или такие документы не индексируются?

Мы поступаем (я надеюсь) совершенно корректно

Хорошо, если дело обстоит так. Это и нас немного ободряет :)

I
На сайте с 15.12.2000
Offline
80
#17
Как писал lexus
Насколько бесплатна лицензия на декомпрессию LZW я, честно говоря, еще не разбирался.

Вот это как раз ключевой вопрос.

Но мы прочитали вот это и решили, что тоже имеем такое же право:

Decoding GIFs is a different issue. The Unisys and IBM patents are both written in such a way that they do not apply to a program which can only uncompress LZW format and cannot compress. Therefore we can and will include support for displaying GIF files in GNU software.

http://www.gnu.org/philosophy/gif.html

А еще есть copyrighted pdf, защищенный криптоалгоритмом RC4.
Или такие документы не индексируются?

Конечно, нет.

Не индексируются документы с флажком "НЕ КОПИРОВАТЬ".

Не индексируются запароленные документы

Илья

AiK
На сайте с 27.10.2000
Offline
257
AiK
#18

К сожалению, похоже приходится выполнить просьбу Ильи:

Если Вы ткнете нас носом в авторский запрет на распаковку архивов или на чтение PDF, вы нас очень обяжете

Далее цитата с иноземного (http://www.unisys.com/about__unisys/lzw/)


More and more people are becoming aware that the reading and/or writing of GIF images requires a license to use Unisys patented Lempel Ziv Welch (LZW) data compression and decompression technology [...] Other forms of LZW are, for example, TIFF-LZW, PDF and Postscript-2. [...] In certain cases, no license fees may be required, but this needs to be evidenced by a written agreement or written statement signed by an authorized Unisys representative.

Что огорчает больше всего: допустим пользователь сжимает данные при помощи Unix'ового compress (который как я знаю LZW использует), а потом с помощью, скажем моей программы распаковывает его. При этом моя программа сама по себе архив не распаковывает, а использует API, предоставляемый win32. Т.е. я никоим образом не распространяю средство работающее с LZW. Тем не менее, следуя вышеупомянутому документу я обязан лицензировать свою программу.

Илья, не могли бы Вы обсудить данный документ с юристами и оставить в данном топике комментарии? Уж больно драконовский документ - даже MP3-decoder не требует ни лицензирования, ни лицензионных отчислений.

Был бы так же крайне благодарен, если бы Вы потом кратко описали процедуру лицензирования.

С уважением,

Артём.

F
На сайте с 15.11.2000
Offline
116
#19
Как писал Keva
утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :)

Полностью согласен. Мне показалось, что вопрос был именно о базе, потому что узнать точное число pdf-документов в рунете в принципе невозможно, так как база любого поисковика заведомо неполная. Поэтому я и не уточнил, что имею в виду базу. :)

С уважением,

Александр Садовский.

MA
На сайте с 02.07.2001
Offline
16
#20

Вопросы к Яндексу:

1. Когда включите поддержку .doc, .xls и т.п. общеизвестных форматов?

2. Не противоречит ли политике компании и будет ли когда-нибудь поисковик индексировать Видео и Аудиоинформаци - например уже сейчас с достаточно небольшими трудозатратами можно было бы начать индексирование mp3 и подобных форматов(благо метаинформации в них зачастую достаточно и она четко структурирована)?

3. Насколько сложно подключить к поисковику новый формат и вообще планируете ли развиваться в этом направлении - постепенное подключение новых форматов, для обеспечения действительно универсального поиска по ресурсам Рунета?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий