- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
У Яндекса написано, что он индексирует PDF.
Конкретный вопрос - как?
Все что я видела для русскоязычных документов - это просто циферки в ссылке, и адрес документа в строке адреса. И все.
А помимо этого в пресс-релизе Adobe говориться, что есть возможность добавлять мета-теги для PDF-документов. Кто-нибудь этим занимался?
работает?
Конкретный вопрос - как?
Вас интересует алгоритм? Насколько я помню, у них самописный парсер.
Или интересуют алгоритм анализа разных частей документа? Увы, вряд ли они это расскажут.
Не знаю как у Яндекса, но я сам писал однажды индексатор PDF и могу сказать, что для русских документов, подготовленных стандартным дистиллятором в 90%, случаев извлечь текст невозможно. Точнее единственный способ - распознать его как графику, как делает FineReader у которого есть такой конвертор, но никто из поисковиков этого явно не делает. Я проверял как работает родной Adobe IFilter для MS IS - та же картина.
Почему это происходит рассказывать долго, но кратко потому, что это почти графический формат.
Теоретически в PDF можно заложить любые поля типа автор, ключевые слова и т.д, но опять же в реальных PDF этого не встречается.
Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).
Короче, ждем когда Metro убьет PDF и разработчикам документооборотов наступит счастье :).
Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.
Об этом стандарте пока не так много известно, получится ведь как в русской пословице:"Из огня, да в полымя!". PDF не так уж и плох, да и затраты на переход от этого стандарта будут велики.
Это, конечно, шутка. Но что надо знать о стандарте кроме спецификации, а она есть? Просто он разрабатывается на 10 лет позже PDF, там все предусмотрено для поддержки языков не на латинском алфавите и т.к. это XML, то индексатор для него делается минут за 20, в этом смысле, действительно, счастье.
Очень даже плох ИМХО. Вернее как графический формат для сохранения заданий принтера - может и ничего, но вот тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.
руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф 🙅
Сообщение от Interitus
тому кто придумал в этом формате в интернете что-то размещать - надо руки оторвать.
руки надо оторвать тому, кто не предупреждает, что ссылка поставлена на пдф
А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.
А так же тем, кто не предупреждает, что ссылка стоит на EXE, RAR и т.п.
я отвечала, не откланяясь от темы 🚬
Товарищи, простите, может не совсем корректно задала вопрос.
Меня интересует, что индексируется Яндексом в PDF?
С поиском по PDF в интернете Яндекс вроде бы справляется: ссылка
Что же он показывает? Заголовок документа - это понятно. А вот текст, который под заголовком - это выдержки из самого документа или Description?
И если это все-таки текст самого документа, значит он все-таки справлятся с индексацией.. И как бы сделать так, чтоб и с моими документами тоже справился?
Спасибо всем, кто готов ломать над тим голову
Да, это тексты документа. Это "хорошие" pdfы