Robot.txt и две ссылки на ресурс...

12
Q
На сайте с 15.06.2006
Offline
0
1495

У меня сайт доступен по двум ссылкам сразу, одна из них полность проиндексированна.. что произойдет если яндекс проиндексирует те же страницы по второй? И можно ли в robot.txt запретить индексацию по одной из этих двух ссылок?

[Удален]
#1

Во-первых не robot.txt, а robots.txt

Во-вторых - ничего больше я понять не смог... по-русски плиз :)

Revan
На сайте с 09.09.2005
Offline
321
#2

если совсем теже страницы, то склеит.

Можно. Вопрос только - нужно ли...

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.
Olinka
На сайте с 20.10.2004
Offline
130
#3

Lazarev, два домена куплено у человека :)

Q
На сайте с 15.06.2006
Offline
0
#4

www.artdo.ru

http://levan3.cemu.ru

один и тот же сайт.... как мне запретить видить яндексу вторую ссылку?

Nikolai Popkov
На сайте с 07.06.2001
Offline
210
#5

Зеркало сайта - как выбрать главный виртуальный хост из нескольких зеркал сайта

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи файла robots.txt. Это можно сделать, используя нестандартное расширение стандарта robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.reklama.su — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.reklama.su

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.reklama.su

и

User-Agent: *

Host: www.reklama.su:80

эквивалентны и запрещают индексирование как www.volchat.ru , так и www.reklama.su:8080 и news.reklama.su .

Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host

Host: www.myhost-.ru

Host: www.-myhost.ru

Host: www.reclama.su:0

Host: www.my_host.ru

Host: .my-host.ru:8000

Host: reklama.su.

Host: my..host.ru

Host: www.reklama.su/

Host: www.reklama.su:8080/

Host: http://www.reclama.su

Host: www.mysi.te

Host: 213.180.194.129

Host: www.reklama.su,www.volchat.ru

Host: www.reklama.su www.volchat.ru

Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.reclama.su\" " -->

User-Agent: *

Disallow: /

<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме www.reclama.su

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.ebanners.ru/robots.txt

http://другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат
Bloody dude
На сайте с 16.03.2006
Offline
68
#6
Quietm:
www.artdo.ru
http://levan3.cemu.ru

один и тот же сайт.... как мне запретить видить яндексу вторую ссылку?

Смотря чего хотите добиться.

1. В роботс.тхт пропишите директиву хост на нужное зеркало

В результате можете потерять трафик - нужно смотреть на количество проиндексированных по доменам. ТИЦ склеится

2. 301 редирект на нужное зеркало (не знаю, бесплатный ли хостинг цему.ру - если да, то не факт, что позволит хостер)

Траф не потеряете, ТИЦ не склеится

3. Все ссылки с неглавного зеркала должны вести на главное.

На мой взгляд, самый корректный метод

Bloody dude
На сайте с 16.03.2006
Offline
68
#7

Не пишите

User-agent: *

Disallow: /dir

Host: сайт.ру

Директиву хост понимает только яндекс, поэтому не факт, что остальные ПС посчитают такой роботс.тхт валидным

Корректно так:

User-agent: *

Disallow: /dir

User-agent: Yandex

Disallow: /dir

Host: сайт.ру

Умные буржуи советуют ставить директивы для отдельного робота выше, чем директивы для всех. Тут не знаю - у всех сайтов, за которыми слежу, яндексовские директивы стоят в самом низу

Alden
На сайте с 04.04.2005
Offline
76
#8

Николай, ниасилил, как говорится, не проще человеку прописать "Host: www.domain.ru" в роботах?

Sape.Ru (http://www.sape.ru/r.7d765d2f01.php) - наше всё! С уважением, Алимкин Денис (http://www.alimkin.ru/).
FlyAway
На сайте с 01.06.2005
Offline
439
#9

Quietm, я бы сначала прописал бы Host: www.artdo.ru в роботсе для обоих, а потом сделал бы модреврайт 301 с http://levan3.cemu.ru на www.artdo.ru

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
Alden
На сайте с 04.04.2005
Offline
76
#10

Вот, Андрей дело говорит.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий