Комментарии - chuprun - Профиль вебмастера - Форум об интернет-маркетинге

inet.ya.ru

9 июля 2008, 05:32

а у меня все нормально, только вот провайдер в локальном пиринге с Яндексом по его же Яндексовской программе локальных ресурсов, соответственно при моем внешне канале в 10 mbit мне показывает все время 100 mbit

Апдейт 09.07.2008

9 июля 2008, 05:27

не вижу апа и суд, по постам, не я один...

говорят, если поставить на автозадачу частую проверку появления нового топика с ключевыми словами в разделе апов, то комп сам включает экран, подает звуковой сигнал, отчего оптимизатор просыпается глубокой ночью и услужливо открывает страницу при появлении нового топика, оптимизатору остается лишь открыть глаза и - опля - он уже читает про новый ап.

это Правда?

Как индексируются pdf файлы?

8 июля 2008, 22:02

Lem625

ладно, оставим про адоб - я просто подчеркнул, что некоторые утверждения могут быть не совсем корректны. Ну бог с ними.

Ха, это как раз очень важно. Но сначала закроем вторую часть вопроса, чтоб он уже не возникал - речь про газетные полосы, поэтому скана там нет и быть не может.

Мы, видимо дргу друга не совсем поняли.

Скан - это отсканированное изображение в графике, сделанное с помощью сканера. Оно может представлять из себя файл PDF. Конвертированный текст - сделанный например в Adobe Indesign макет, включающий в себя текст, обработанный в XML или же word файл, сконвертированный в PDF.

Так вот, если у вас скан в PDF - это как флеш без ссылок - индексировать там нечего, как и оптимизировать. Вопрос ТС стоял такой -

Как индексируются pdf файлы?

Видимо, человек хотел не просто выложить картинки, а выложить так, чтобы оно было в индексе и в выдаче хоть как-то.

И совсем неважно, какой там размер файла - если большой и не скан - то для индексирования надо разрезать на куски, а если там скан - то как ни режь, что ни делай - индексировать там кроме имени файла и тайтла - нечего. Пусто там для бота.

Если скан - то надо распознавать текст, тогда все будет хорошо. Если текст - то не надо распознавать. Естественно, после распознавания размер уменьшиться, так как это уже будут не картинки.

Если вернуться к вашей смоделированной задаче и предположить, что все газеты - сканы, то

1. Распознам тексты, правим. Режем на куски, если размеры большие, в соответствии с требованиями ПС.

2. Ели надо, то оптимизируем под НЧ. Хотя бы Тайтлами и мета+названия файлов, если англ. - чтобы не менять содержание.

3. Положим, там не скан, как вы сказали, а уже распознанный текст (прямо с макетов экспортировали), но все равно большого размера. Делаем пакетную оптимизацию рисунков в PDF, софта достаточно, тем самым уменьшаем размер, далее опять выкладываем как есть.

Экспорт в html при блочной верстке в макете (газета же) будет гемморойным, наверняка затусуются и фреймы, проблемы с кодировками могут быть (в зависимости от шрифтов, тогда юзаем pdffactory) и размерчик может быть опять же неадекватен.

Интересный блог для тех, кто любит думать

8 июля 2008, 20:18

неплохой...но...читать немного сложно...наверное с непривычки, загруженные словами тексты идут у меня туго:) положу в закладки...

Как индексируются pdf файлы?

8 июля 2008, 17:52

я не пойму, какая разница для чего он готовился то для Инета или для локального хранения, да неважно это...важно, в каком он виде был "сготовлен" - скан или конвертирование текста.

Честно

"Готовился pdf" - имеется в виду не автором-фирмойпроизволителем формата файла, а конкретным пользователем изготовление конкретного файла.

я не понимаю этой фразы, просто исходя из основ русского языка... перефразируйте как-то по-другому.

chuprun добавил 08.07.2008 в 21:54

Maxiz:
Правда чтоль ? где результаты экспериментов с примерами?

кстати, эксперименты проводились в Google авторами статей, на которые я дал ссылки, там есть подобное утверждение.

Оцените дизайн

8 июля 2008, 17:40

согласен про перспективу, газон на нас, а дом справа наоборот...

эталон онлайн журнала

8 июля 2008, 17:38

micronoid:
onlinejournal.com

не использованы ЧПУ в URL для Google - для англ. сайта это боольшое упущение в НЧ. Но т.к у самого примера нет стоящего, хотя...

если только http://www.smashingmagazine.com/

Что за статистика?

8 июля 2008, 11:20

ммм www.seo-members.com - там есть такая...но бета

Помогите определить движок сайта

8 июля 2008, 11:10

спасибо через репку:)) но я не настаиваю:)

Ап 03.07 (первый ап при Магадан 2.0)

8 июля 2008, 10:48

wolf:
Это листинг из Яндекс-каталога. Его используют, когда не получается сформировать хорошие сниппеты из контента документа

аа точно, спасибо, а то я грешил на Яндекс почему-то..

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

chuprun