- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Сегодня Яндекс стал искать не только по html-документам, но и по PDF/RTF.
С уважением,
Александр Садовский.
Вопрос к Илье Сегаловичу.
Если не секрет, фильтр для pdf - разрабатывали сами,
лицензировали у Adobe или у какой-нибудь другой компании?
Еще очень интересно, какое количество pdf-файлов в Рунете?
Еще очень интересно, какое количество pdf-файлов в Рунете?
Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.
С уважением,
Александр Садовский.
Если не секрет, фильтр для pdf - разрабатывали сами, лицензировали у Adobe или у какой-нибудь другой компании?
Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.
Александр уже ответил, что в базе примерно 50 и 10 тысяч. А в Рунете?...
Трудно сказать, посмотрим сколько робот еще нагребет в ближайшее время. Кроме того, есть ведь и огромные сайты, чуть ли не целиком из PDF-ов. Мы их пока прошли весьма поверхностно.
Парсеры PDF и RTF - свои. Писали, конечно же, глядя на существующие.
Да есть такие open source вещи: pdflib, например.
Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?
Или на территории Росии они не имеют силы?
Регулировались ли вопросы, связанные с авторскими правами Adobe и патентами на алгоритмы сжатия, шифрования и т.п.?
Следует отделять чтение от записи, а упаковку от распаковки.
Наш парсер не пишет файлы в формате Adobe, не пакует данные чужими запатентованными алгоритмами и полностью исключает из рассмотрения зашифрованные или закрытые от публичного просмотра файлы.
Мы вообще не знаем такого слова: "шифрование" или "защита" :)
Если Вы ткнете нас носом в авторский запрет на распаковку архивов или на чтение PDF, вы нас очень обяжете.
Думаю, что если бы такой запрет существовал, то он бы 1) оказался бы под огнем критики и 2) вызвал бы цепочку судебных процессов со стороны пользователей.
Нам неизвестны патенты, запрещающие читать файлы PDF.
Речь здесь не идет о "случае Склярова", когда нарушалась воля авторов, явно выраженная в форме установленной защиты от копирования.
С уважением,
Илья
P.S.
Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.
==================
Adobe gives copyright permission to anyone to:
• Prepare files in which the file content conforms to the Portable Document
Format.
• Write drivers and applications that produce output represented in the Portable
Document Format.
• Write software that accepts input in the form of the Portable Document Format
and displays the results, prints the results, or otherwise interprets a file
represented in the Portable Document Format.
===================
Есть еще вопросы?
Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.
Саше Садовскому: мне кажется, ты несколько заблуждаешься, подменяя суть вопроса :) Аргумент очень простой: утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :) На самом деле он содержит их M :)
По нашим данным, в Рунете их 706 тысяч, но среди них очень много растровых, иноязычных и точных копий (дублей).
Илье Сегаловичу: поздравляю с достижением. Жаль, что тебя не было в субботу на распитии пива в Пятом Океане :) Пиво удалось :)
P.S.
Когда написал, еще раз перечитал лицензию Adobe на формат PDF. Дальше пойдет иностранный язык, надеюсь Вы сможете это прочитать.
===================
...................
===================
Есть еще вопросы?
Прочитать - конечно сможем !!!
А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?
P.S. Надеюсь GPL-лицензию цитировать не надо ?
...как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?
Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.
Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.
А вот как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода?
Никак не отнесемся.
Почему же?