Можно ли при помощи robots.txt запретить индексацию субдоменов?

54

Канал-Р

9 февраля 2006, 23:10

2313

Здраствуйте!

Есть такая проблема - в поисковики все время попадают ложные адреса типа wwww.site.ru, ww.site.ru, news.site.ru, pda.site.ru и т.п. Таких субдоменов на сайте нет. Как появляются эти ссылки ясно - кто-то где-то где-то дает ошибочную ссылку с таким префиксом, поисковик идет по ней... и видит то, что и нужно, но только в URL вместо www подставляется ложный субдомен. А дальше разрастается куст ложных ссылок, причем оригинальные склеиваются с ложными в пользу последних.

Сервер, увы, так настроен, что URL с несуществующим субдоменом воспринимается как нормальный корневой. Это все конечно не очень полезно с точки зрения оптимизации. Как наиболее простым способом запретить индексацию выявленных ложных субдоменов?

Спасибо!

304

antono

10 февраля 2006, 12:58

#1

Если файл виден так:

news.site.ru/robots.txt

то он будет закрывать папку:

news.site.ru/include/

если она прописана в роботе:

User-agent: *

Disallow: /include/

187

alexspb

10 февраля 2006, 13:02

#2

antono, тут речь о другом: этих сабдоменов не существует. Просто надо с сервером разбираться.

304

antono

10 февраля 2006, 13:04

#3

У меня так же сервер настроен. А поисковику все равно как там настроено, он что видит, то и обрабатывает. В данном случае он будет видеть news.site.ru/robots.txt и соответственно применит все что в роботе

187

alexspb

10 февраля 2006, 13:08

#4

А зачем вам это надо? Это дает какую-то пользу???

304

antono

10 февраля 2006, 13:49

#5

Конечно дает - очень неудобно работать с доменами, жестко привязанными к папке. Даже include не работает в таком случае. А если поддоменов десятки, то просто ужас. А автоподдомены позволяют легко добавить поддомен не прописывая ничего в апаче - а только отредактировать диспетчерский скрипт.

149

tester999

11 февраля 2006, 09:40

#6

А если "смотреть" запрос, и вслучае "бока", выдавать 301+нужную страницу?

291

Nikolai Popkov

11 февраля 2006, 10:51

#7

1.

Если у вас сервер Apache, то можно вместо использования директивы Host (которая работает только для Яндекса) задать robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.ebanners.ru\" " -->

User-Agent: *

Disallow: /

<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме

www.ebanners.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.ebanners.ru/robots.txt

http://другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

2. Только для Яндекса

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи файла robots.txt. Это можно сделать, используя нестандартное расширение стандарта robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.reklama.su — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /cgi-bin

Host: www.reklama.su

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.reklama.su

и

User-Agent: *

Host: www.reklama.su:80

эквивалентны и запрещают индексирование как www.volchat.ru , так и www.reklama.su:8080 и news.reklama.su

подробнее здесь:

Зеркало сайта - как выбрать главный виртуальный хост из нескольких зеркал сайта

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат

Выбор главного зеркала для 301 редирект заменит директиву Яндекс: 301-й редирект полностью

КР

54

Канал-Р

12 февраля 2006, 09:23

#8

Спасибо большое всем, идеи понятны!

Да, забыл уточнить.. Уважаемый Nikolai Popkov, а вы не могли бы подсказать формат такого же кода SSI для robots.txt, разрешающего обход помимо основного домена еще и нескольких субдоменов. Дело в том, что помимо ложных субдоменов на сайте вполне хватает и настоящих.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ