Что лучше для поисковиков, xml или html?

Рамилькин · 2011-02-05T11:08:08.0000000Z

Простой вопрос: что лучше для поисковиков, xml или html, на данный момент и в перспективе на будущее? И собственно по каким причинам лучше тот или иной язык. Спасибо.

L

351

Ladycharm

11 февраля 2011, 13:00

#11

богоносец:

Orcstation:
Если Вы про сайтмап, то xml конечно.

Нет. Про http://ru.wikipedia.org/wiki/XML http://ru.wikipedia.org/wiki/XSLT

Это же одно и то же. Карта сайта делается в xml, по Вашей ссылке на Вики это и написано.

богоносец:
Content-Type: text/xml; charset=UTF-8

Http-заголовки выдаются - от XML, а код страницы - HTTP. Так можно сделать, просто прописав расширение файла .xml

http://rambler-snippet.ya.ru/replies.xml?item_no=12 - тут только имя файла "намекает" на xml, а код страницы и заголовки - html.

богоносец:
зы меня интересовали очень примитивные вещи... как оно будет в выдаче.

Мы, похоже, понимаем под XML совершенно разные вещи.

Вот тестовая страничка на XML, как я его понимаю :)

Посмотрите html-код - там чистый xml. Посмотрим, что проиндексирует, думаю, что ничего, тк без стилей - там обыкновенная карта сайта.

обновления карт сайта XML Адурилки от Google больше Disallow: /page/ в ДЛЕ

781

богоносец

11 февраля 2011, 23:31

#12

Ladycharm:
Мы, похоже, понимаем под XML совершенно разные вещи.

Наверное.

На erum.ru в XML использованы теги из HTML, что совсем не делает тот код HTML-ем. И XSLT там выполняется, иначе страница не сможет так выглядеть, будь это HTML. Наличие тегов из HTML не запрещено в XML. А отказ в XML-е от тегов HTML приводит к мелким издержкам сниппета.

Так можно сделать, просто прописав расширение файла .xml

Не всегда.

HTTP-заголовок http://webmaster.yandex.ru/addurl.xml — Content-Type: text/html;

Посмотрим, что проиндексирует, думаю, что ничего, думаю, что ничего, тк без стилей

Проиндексирует, возможно. В xsl Я не лезет, G иногда (ссылку-то поставили). XSLT не выполняли.

24.10.2006 Ayavryk предложил... использовать возможности браузеров: краткий перечень, но реально их больше, просто всем лень.

Управление сниппетами. Стандартные сниппеты Как получить расширенный сниппет Google представил новую систему

304

Alex Klo

12 февраля 2011, 00:05

#13

богоносец:
На erum.ru в XML использованы теги из HTML, что совсем не делает тот код HTML-ем. И XSLT там выполняется, иначе страница не сможет так выглядеть, будь это HTML.

достаточно зайти туда при выключенных скриптах (у меня FF+NoScript):

jpg erum.ru.jpg

Проверка и мониторинг позиций сайта ( http://www.topvisor.ru/?inv=1520 ) Продвигаю сайты http://climat-nw.ru/conditioner-installation/ http://www.aircom-spb.ru/service/montaj/

781

богоносец

12 февраля 2011, 01:00

#14

Alex Klo:
FF+NoScript

Значит NoScript отменяет выполнение XSLT?

Попробуйте другим браузером.

зы а ссылок на скрипты в исходном коде морды нету... только <?xml-stylesheet type="text/xsl" href="/final.xsl"?>

304

Alex Klo

12 февраля 2011, 01:33

#15

богоносец:
а ссылок на скрипты в исходном коде морды нету... только <?xml-stylesheet type="text/xsl" href="/final.xsl"?>

дык! я сам немного удивился NoScript'у... но скрин есть скрин...:)

781

богоносец

13 февраля 2011, 00:44

#16

Alex Klo:
сам немного удивился NoScript'у

[ATTACH]83290[/ATTACH]

А если в браузере просто отключены скрипты, то такого не возникает. Средствами.XSL можно создать и тег <script>, но невыполением его можно бы заниматься без блокирования XSLT.

Ladycharm:
Посмотрите html-код - там чистый xml

Ну зачем такие кривые фразы?

...:
Посмотрим, что проиндексирует

Надо было другую карту сайта выложить по второму урлу, а то дубли.

G проиндексил... ну, текстовый фрагмент ещё может зависеть от запроса, но, надеюсь, что после уж такого как бы тайтла задуматься о выдаче придётся. Сравните: в Я.быстроботовском индексе 3 страницы из 4-х тестовых, и нет (пока) той, у которой корневой элемент — не <html> ... надо бы дождаться нормальной переиндексации.

Рамилькин:
Например два сайта с одинаковым контентом, но в одном используется разметка html, в другом xml. Как это влияет на выдачу результатов в поисковике.

Кроме «какая будет выше», есть всякие другие, косвенно, но иногда упрямо влияющие вещи:

Платон Щукин:
некоторые страницы Вашего сайта считаются полудубликатами и поэтому отсутствуют в результатах поиска. Могу посоветовать Вам изменить код этих страниц так, чтобы оставить для индексирования только уникальный, неповторяющийся контент. Сделать это можно при помощи тегов <noindex></noindex> – поместите в них те части страницы, которые одинаковы для всех похожих страниц сайта (например, меню, заголовки и т.п.).

А с XSLT это решается легко и для всех страниц, и можно изменить вид (+фактически разметку того, что видит посетитель, а не только стили) всех в одном файле, и это не приведёт к необходимости их переиндексации... и с Last-Modified мудрить не придётся.

XSLT. Краткий курс

Получил смешной такой ответ техподдержки:

12 февраля 2011 в 12:47
Здравствуйте!

К сожалению, мы не предоставляем рекомендаций относительно создания .xml документов. В настоящий момент они могут индексироваться роботом, но в результатах поиска все равно не участвуют.
---
С уважением, Платон Щукин
Служба поддержки Яндекса
http://help.yandex.ru/
Сделайте сайт более заметным в результатах поиска: http://content.webmaster.yandex.ru/?from=support

> Здравствуйте.
> Иногда хочется сделать XML-документ, использующий XSLT, а их можно делать разными.
> Но не всякий XML-документ индексируется Яндексом, а у тех, что индексируются — не всегда воспринимается заголовок документа и описание, даже если корневой элемент <html>
> Ещё, не индексировались Яндексом документы с корневым элементом <xsl:stylesheet>, хотя его можно сделать страницей с видимым посетителю контентом, а не только таблицей стилей.xsl
> Не воспринимался заголовок документа и описание, если в нём не было ссылки <?xml-stylesheet href="файл.XSL" type="text/xsl"?> на файл преобразования.XSL
> Есть ли какой-то конкретный набор правил/признаков/условий, которым должен удовлетворять XML-документ, чтобы Яндекс его не отказывался индексировать (и воспринимал теги title и meta как в HTML — что иногда наблюдалось)?
> Что должно быть в заголовках ответа сервера, если это имеет значение?
> Есть ли зависимость от используемой кодировки?
> Спасибо.

Боты скорее всего не очень-то умеют различать HTML и XML, и, вероятно, они смотрят на очень ограниченный набор признаков. А выполнять JS и XSLT — им слишком дорого. А возможностей там слишком много... поэтому без полноценного выполнения никак, частичным не обойтись.

png 83290.png

О чем нужно помнить 10 критических ошибок SEO SEO-аудит сайта от Сергея

Дзен реализовал для авторов возможность вывода денег через СПБ

Все что нужно знать о DDоS-атаках грамотному менеджеру