Откуда этот бред, что xml карта это для гугла а html только для яндекса? Все пс понимают формат xml карты и яша здесь не исключения. У них стандарт такой, заглядывать в роботс и искать в директиве Sitemap путь к хмл формату.
А кто сказал что их нет? Они как раз-то есть, и могут создавать дубли по старому адресу - /index.php?newsid=*
Ну, это обычное явление при смене урл'ов.
Смотрите теперь чтоб старые урл'ы дубли не создавали.
Не понял смысла, зачем генерировать отдельно для пс больше страниц чем есть на самом деле? Может, подмена?
<meta name="robots" content="noindex,follow">
выходит что нет. :(
1. Не стоит. Етим вы запретите боту ходить по номерам страницы сайта /pages/2/, /pages/3/.
Все равно там инфа будет обновляться, да и основной контент у вас должен лежать в самих темах.
2. Можно под один user-agent.
Только путь пиши полный, а не относительный:
Sitemap: http://домен.ру/sitemap.xml
Sitemap един для всех ботов. Пропиши в роботс эту директиву с местонахождением xml карты: Sitemap: {полный путь к карте сайта}
А что мешает каталогам скормить эту страничку пс?