Только если страниц будет очень много, которые необходимо запретить к индексации, то получится слишком длинная "колбаса" из Disallow
Тогда лучше привести все это хозяйство к тому, чтобы запрещаемые страницы лежали в одной или нескольких папках, тогда код robots.txt существенно сократиться и получиться что-нибудь вроде:
Disallow: /folder1/
Disallow: /folder2/
нужно сделать HTTP запрос на сервер.
Есть утилитки которые позволяют это делать, название прог не помню. Да и на некоторых сайтах такая возможность реализована, ссылку не дам, дабы на рекламу не смахивало :)
В логах можно посмотреть, что отдается по запросу на определенный документ.
Про IIS сказать ничего не могу, не сталкивался.
Вообще запрет можно осуществить и без header, существует достаточно способов запретить документ к индексации
Запроси заголовки
А кто сказал, что она не будет выдаваться ??
Snake выше написал про header
Сделать то можно, только добром это дело не кончится
<META NAME="Robots" CONTENT="noindex">
Там h1 не только в самом верху, ничего сверхъестественного не сделано, идет обычное перечисление ключевых слов в заголовке, смысловой нагрузки нет никакой.
Если Вам нужно, чтобы все страницы сайта хорошо индексировались, то карта соответственно должна быть подробной, только это зачастую приводит к тому, что жмешь на "карта сайта" у тебя открывается огромная "колбаса", которую замучаешься скролингом листать