- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
хотел прикрутить к сайтику DOC файлы, но появилось много вопросов:
1) учитывает Яндекс стили (жирный, Заголовок, курсив и т.п.) при индексации doc?
2) имеет смысл "оптимизоровать" текстовые файлы?
3) возможен бан за поисковый спам внутри документа?
По-моему, достаточно прописать название в свойствах файла. Ну и пару гиперссылок в него воткнуть, чтобы люди могли еще куда-нибудь перейти одним кликом.
А что, есть такая ситуация, что надо .DOC - файлы продвигать выше HTML? Интересно, зачем?
P.S. Хотите попробовать белым по белому? :).
1) учитывает Яндекс стили (жирный, Заголовок, курсив и т.п.) при индексации doc?
Врятле, т.к. как в этом смысл. Имхо конечно, логично предположить, что doc, xml, pdf не парсятся, а просто конвертятся в plain-text. А значит и все выделения теряют смысл.
Сам занимался препарированием ворда - полная ж... Там все очень криво и неоднозначно.
3) возможен бан за поисковый спам внутри документа?
Яша приравнивает все что может проиндексировать к страницам сайта.
Имхо конечно, логично предположить, что doc, xml, pdf не парсятся, а просто конвертятся в plain-text. А значит и все выделения теряют смысл.
Для .pdf, по крайне мере, они парсятся не в plain text. Во всяком случае, все выделения и локальные ссылки внутри документа прекрасно видны в "View as HTML". Даже если Google вместо "View as HTML" предлагает "View as Text" (для .ps), то все равно форматирование остается.
Яша приравнивает все что может проиндексировать к страницам сайта.
Для .pdf, по крайне мере, они парсятся не в plain text.
а вопринимает Яндекс заголовки (базовый, заголовок 1, заголовок 2...) и можно(ли) сопоставить: заголовок 1=h1, заголовок 2=h2....?
Какое имеет отношение парсер и методы показа.
"View as HTML".
и где Вы это жмете? В броузере??? Так яша то тут причем?
Какое имеет отношение парсер и методы показа.
"View as HTML".
и где Вы это жмете? В броузере??? Так яша то тут причем?
Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.
Это к тому, что не обязательно они парсятся и в Яндексе в plain text. По крайне мере прямого подтверждения не наблюдал, может где и есть.
Пардон -- я тут неявно съехал на Гугл. Жму в браузере, просто Гугл (думаю, что в зависимости от способа парсинга) может предлагать разные методы отображения.
Извениете, вы поняли сами что сказали?
броузер, гугл, отображение.... каша получается.
Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).
Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.
PS я предположил вариант такого парсера из следующих предпосылок.
1. рессурсы индексаторв ПС очень ограниченны.
2. документы, в отличии от html страниц, как правило, имеют очень низкий вес.
3. такие документы отображаются по очень НЧ запросам, и как правило, при строгом совпадении.
4. структура такх документов очень запутанна. Файлы имеют , обычно, значительно большую длинну, нежели html страницы сайта, а ПС такое не "любит".
6. основная бадза ПС хранится в KOI8 или подобном (экономия места, скорость обработки, подавления спец-символов). Перевод же сложных документов в такую кодировку, и при этом, сохранение структуры - сложное занятие.
7. Не забывайте, что в таких файлах может содержаться значительное количество вложенных объектов.
Это тут оффтопик (тема-то про Яндекс), но если надо, можно продолжить про Гугл.
броузер, гугл, отображение.... каша получается.
Где Вы видили возможность посмотреть PDF в виде HTML? (или вы что-то другое имели ввиду?).
У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.
Для некоторых форматов (напр., postscript) она выглядит как "View as Text".
Т.е. по крайне мере к PDF+Google предположения о plain text не верны. Для Яндекс не знаю, но интересно было бы узнать.
Вы видили хтябы раз внутиряки RTF. DOC или PDF. Если Вы мне сможете однозначно показать элементы структуры (не формата, а текста) - то сможем дискуссию продолжить.
Но топикстартер спрашивал не про элементы структуры текста, а про выделение курсивом, жирным. Они прекрасно сохраняются после парсинга Гуглом.
Например, тут
У Вас ведь присутствует ссылка(и) "View as HTML" в результатах, выдаваемых Гуглом, да? Именно это я и хотел сказать.
Для некоторых форматов (напр., postscript) она выглядит как "View as Text".
Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат.
Но чеща в таком виде к файлу крепят тольок копиригт.
В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью. Такое иногда делаю, но грамотрней, эту инфу выложить на самой странице, и дать возможность скачать в пдф.
Извените, но Вы просто очень плохо знаете структуру этих файлов. Он может быть многопоточны или многовидовым, т.е. в нем одновременно могут содержаться жанные в нескольких форматах. Внутри пдф и рс можно вложить дубль текста в виде текста или хтмл, для того, чтобы можно было быстро посмотреть что в них находимтся и поиск по файлу давал результат. Но чеща в таком виде к файлу крепят тольок копиригт. В вашем примере он парсит не сам пдф, а ту часть, которую автор открыл для превью.
Про объекты, потоки, слои, rendition actions, словари и прочие детали я в курсе, но прямого отношения к топику это не имеет.
Вопрос был способны ли поисковики (конкретно Яндекс и, раз уж заговорили, то Гугл) вытаскивать что-от более чем plain-text из, очевидно, тех документов, которые это позволяют сделать. Можно ведь и из картинок pdf создать. Прозвучало мнение, что ничего кроме plain text поисковики не знают, и я привел первое пришедшее в голову очевидное опровержение этого для Гугл, который (когда это возможно, есстественно) вытаскивает гораздо больше, чем просто текст. Для сделаных с умом pdf-ов (а таких, информационно насыщенных документов -- статьи и мануалы, в Web большинство) у него это получается на ура.
Да, вы правы, для этого надо обеспечить возможность поисковику индексировать pdf, но это позволяют большинство стандратных средств создания таких документов + мысль о том, для чего и кого это делается.
Из предположения, что в Яндексе сидят люди априори не глупее, следует, что по крайне мере технических сложностей учитывать хотя бы локальное выделения текста для тех же случаев, что и Гугл, им не составляет труда. Вопрос используют ли они их на самом деле -- не знаю и с интересом ознакомлюсь с информацией по этому поводу. Равно как и с информацией учитывает ли Гугл вытащенное локальное форматирование в ранжировании.