Если у вас скан в графике, то надо разрезать на куски. Индексируйте там кроме имени файла и тайтла - Поисковые технологии

113

chuprun

8 июля 2008, 17:52

#51

я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Честно

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

chuprun добавил 08.07.2008 в 21:54

Maxiz:
Правда чтоль ? где результаты экспериментов с примерами?

кстати, эксперименты проводились в Google авторами статей, на которые я дал ссылки, там есть подобное утверждение.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

134

Lem625

8 июля 2008, 19:07

#52

chuprun:

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

уфф... ну ладно последняя попытка.

я говорил про конкретные "файлы.pdf" топикстартера, а не про политику фирмы адоб по поводу формата pdf в целом.

Политика фирмы адоб тут вообще не при чем. Не надо утаскивать дискуссию в дебри про то, что там имела в виду фирма Адоб, да для чего был создан формат pdf... Ну какое это имеет отношение к обсуждаемому вопросу?

pdf топикстартера, как понятно из его вопроса, уже готовы и вопрос в их оптимизации не стоит. Вопрос был простой и приземленный - "как лучше всего конвертировать/выложить то, что есть".

Если и сейчас не понятно - по другому объяснить не смогу.🙄

Ну в самом деле, не будет же он переоптимизировать гигантский архив газетных файлов?

Проще заново газету издать...

PS кстати, chuprun каковы ваши действия по выкладыванию газетного, например, архива?

Дано: есть 150 файлов *.pdf - архив за 3 года еженедельной газеты. Каждый файл - 20Мб.

Больше ничего нету.

Методика выкладывания - предложите?

Lem625 добавил 08.07.2008 в 23:16

chuprun:
я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

А разница в подготовке файла pdf вот тут:

1. Генерировался для локального использования, например в качестве резервной копии для возможного перевывода пленок - качественная графика, нет внутреннего jpg сжатия растровой графики - размер файла порядка 20-30 Мб.

2. Генерировался для Инета, в качестве превьюшки - картинки 72dpi, jpg сжатие - размер pdf-а получится порядка 500кб.

В первом случае перспективы быть такому файлу проиндесированным гораздо меньше чем во втором. Вот я и советовал ранее файл пункта 1. перегенерировать в файл пункта 2. из pdf в pdf с другими настройками дистиллирования.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

113

chuprun

8 июля 2008, 22:02

#53

Lem625

ладно, оставим про адоб - я просто подчеркнул, что некоторые утверждения могут быть не совсем корректны. Ну бог с ними.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

Мы, видимо дргу друга не совсем поняли.

Скан - это отсканированное изображение в графике, сделанное с помощью сканера. Оно может представлять из себя файл PDF. Конвертированный текст - сделанный например в Adobe Indesign макет, включающий в себя текст, обработанный в XML или же word файл, сконвертированный в PDF.

Так вот, если у вас скан в PDF - это как флеш без ссылок - индексировать там нечего, как и оптимизировать. Вопрос ТС стоял такой -

Как индексируются pdf файлы?

Видимо, человек хотел не просто выложить картинки, а выложить так, чтобы оно было в индексе и в выдаче хоть как-то.

И совсем неважно, какой там размер файла - если большой и не скан - то для индексирования надо разрезать на куски, а если там скан - то как ни режь, что ни делай - индексировать там кроме имени файла и тайтла - нечего. Пусто там для бота.

Если скан - то надо распознавать текст, тогда все будет хорошо. Если текст - то не надо распознавать. Естественно, после распознавания размер уменьшиться, так как это уже будут не картинки.

Если вернуться к вашей смоделированной задаче и предположить, что все газеты - сканы, то

1. Распознам тексты, правим. Режем на куски, если размеры большие, в соответствии с требованиями ПС.

2. Ели надо, то оптимизируем под НЧ. Хотя бы Тайтлами и мета+названия файлов, если англ. - чтобы не менять содержание.

3. Положим, там не скан, как вы сказали, а уже распознанный текст (прямо с макетов экспортировали), но все равно большого размера. Делаем пакетную оптимизацию рисунков в PDF, софта достаточно, тем самым уменьшаем размер, далее опять выкладываем как есть.

Экспорт в html при блочной верстке в макете (газета же) будет гемморойным, наверняка затусуются и фреймы, проблемы с кодировками могут быть (в зависимости от шрифтов, тогда юзаем pdffactory) и размерчик может быть опять же неадекватен.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

134

Lem625

9 июля 2008, 06:28

#54

chuprun:
Lem625
Скан - это отсканированное изображение в графике, сделанное с помощью сканера.

Спасибо за разъяснение 😎

знал что отсканированное, но не знал что "в графике".

это какой-то "абзац" на букву "п"

PS

def: веревка - это вервие простое.

131

GeorgeWhite

10 июля 2008, 09:34

#55

voodoo911:
Может ли быть ПР у pdf файла?

windofor:
Конечно, как и у любого проиндексированного ПС документа (страницы)

Неужели правда?

157

voodoo911

10 июля 2008, 09:48

#56

GeorgeWhite:
Неужели правда?

http://sps.ru/file/0034/6516/index.pdf

первое что попалось.

131

GeorgeWhite

10 июля 2008, 09:55

#57

voodoo911:
http://sps.ru/file/0034/6516/index.pdf
первое что попалось.

Нормально так... Спасибо.

322

wilelf

11 июля 2008, 06:57

#58

Тему не осилил...

У каждого документа (пдф, ворд) есть свойства (соответствующая вкладка), в которой можно прописать и тайтл и дескрипшн и прочее. Советую пользовать.

И еще один момент: при индексации таких документов размер имеет значение, поэтому постарайтесь ограничить их объем.

Агентство контекстной рекламы НеВсем ( https://www.nevsem.ru/ ) Пишу платно статьи для Хабра. Мой профиль ( https://habr.com/ru/users/wilelf/ )

131

GeorgeWhite

11 июля 2008, 08:58

#59

wilelf:
У каждого документа (пдф, ворд) есть свойства (соответствующая вкладка), в которой можно прописать и тайтл и дескрипшн и прочее. Советую пользовать.

Ценные сведения, спасибо.

6

MaxZXXXZ

6 августа 2008, 11:32

#60

Поделюсь своим опытом. Меня от этих педеэфничков трясет уже... Последний сайт: 2 с лихом тыщщи технических статей, каждая со своим педеэфничком 😡 Это третий такой сайт. Ну и вот глядя и сравнивая с первым: не вешайте очень тяжелые pdf - часто именно они не индексируются. Хотя тут есть вопросы - иногда нормально проходят... Вообщем есть в Acrobat 8.0 функция по оптимизации, не ленитесь - уменьшите массу файлега: и не только картинок, пробегитесь по всем параметрам обязательно. Это пакетно можно сделать. Дальше по ключевикам: не знаю, не ставил - и так нормально схавали и Гугля, и Яндс. Смотрите на шрифты еще: часто полиграфисты ставят какие-нить безумно странные шрифты, естесно они не будут читаться, но это скорее проблема верстки из pdf в html, а это уже отдельный мегагемор. У меня компилированные pdf-файлы были и чесн говоря как там в них сменить шрифты на системные я так и не нашел.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как индексируются pdf файлы?