Можно ли при помощи robots.txt запретить индексацию субдоменов?

КР
На сайте с 05.08.2005
Offline
54
2308

Здраствуйте!

Есть такая проблема - в поисковики все время попадают ложные адреса типа wwww.site.ru, ww.site.ru, news.site.ru, pda.site.ru и т.п. Таких субдоменов на сайте нет. Как появляются эти ссылки ясно - кто-то где-то где-то дает ошибочную ссылку с таким префиксом, поисковик идет по ней... и видит то, что и нужно, но только в URL вместо www подставляется ложный субдомен. А дальше разрастается куст ложных ссылок, причем оригинальные склеиваются с ложными в пользу последних.

Сервер, увы, так настроен, что URL с несуществующим субдоменом воспринимается как нормальный корневой. Это все конечно не очень полезно с точки зрения оптимизации. Как наиболее простым способом запретить индексацию выявленных ложных субдоменов?

Спасибо!

antono
На сайте с 12.07.2004
Offline
302
#1

Если файл виден так:

news.site.ru/robots.txt

то он будет закрывать папку:

news.site.ru/include/

если она прописана в роботе:

User-agent: *

Disallow: /include/

alexspb
На сайте с 14.11.2005
Offline
187
#2

antono, тут речь о другом: этих сабдоменов не существует. Просто надо с сервером разбираться.

antono
На сайте с 12.07.2004
Offline
302
#3

У меня так же сервер настроен. А поисковику все равно как там настроено, он что видит, то и обрабатывает. В данном случае он будет видеть news.site.ru/robots.txt и соответственно применит все что в роботе

alexspb
На сайте с 14.11.2005
Offline
187
#4

А зачем вам это надо? Это дает какую-то пользу???

antono
На сайте с 12.07.2004
Offline
302
#5

Конечно дает - очень неудобно работать с доменами, жестко привязанными к папке. Даже include не работает в таком случае. А если поддоменов десятки, то просто ужас. А автоподдомены позволяют легко добавить поддомен не прописывая ничего в апаче - а только отредактировать диспетчерский скрипт.

tester999
На сайте с 21.10.2004
Offline
149
#6

А если "смотреть" запрос, и вслучае "бока", выдавать 301+нужную страницу?

Nikolai Popkov
На сайте с 07.06.2001
Offline
291
#7

1.

Если у вас сервер Apache, то можно вместо использования директивы Host (которая работает только для Яндекса) задать robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.ebanners.ru\" " -->

User-Agent: *
Disallow: /
<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме

www.ebanners.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.ebanners.ru/robots.txt

http://другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

2. Только для Яндекса

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи файла robots.txt. Это можно сделать, используя нестандартное расширение стандарта robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.reklama.su — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /cgi-bin
Host: www.reklama.su

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.reklama.su

и

User-Agent: *

Host: www.reklama.su:80

эквивалентны и запрещают индексирование как www.volchat.ru , так и www.reklama.su:8080 и news.reklama.su

подробнее здесь:

Зеркало сайта - как выбрать главный виртуальный хост из нескольких зеркал сайта

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат
КР
На сайте с 05.08.2005
Offline
54
#8

Спасибо большое всем, идеи понятны!

Да, забыл уточнить.. Уважаемый Nikolai Popkov, а вы не могли бы подсказать формат такого же кода SSI для robots.txt, разрешающего обход помимо основного домена еще и нескольких субдоменов. Дело в том, что помимо ложных субдоменов на сайте вполне хватает и настоящих.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий