Cherny

Рейтинг
120
Регистрация
19.09.2001
А где собственно надо размещать robots.txt - в самом-самом корне, или в публичной директории (public_html или www)?

Размещать надо так, чтобы его можно было найти по адресу http://www.site.com/robots.txt, где физически файл должен находиться - спросите у хостера.

Имя поля case insensitive, поэтому регистр здесь ни при чем.

Скорее всего, робот индексирует форум по адресу http://www.smallweb.ru/forum/ так как

здесь ему это не запрещено.

Если между директивами пробелы, то не будет.

Может это у Вас файл только так отображается, а на самом деле там перевод каретки есть между директивами.

1. robots.txt - как запретить индексацию сайта всеми роботами кроме русских и украинских? Где почитать можно настройки? Проект завязан на определнную страну и трафик иностранный весьма неприемлем.

Примерно так:


#Всем роботам запрещаем индексировать сайт
User-agent: *
Disallow: /

#Разрешаем тем, которые нам нужны
User-agent: Yandex
User-agent: StackRambler
User-agent: MetaSpider
...
User-agent: Googlebot
Disallow:

Да, все верно.

При запросе robots.txt на сайте site.ru робот получает редирект на www.site.ru, а оттуда уже нормально забирает файл.

С mod_rewrite нигде не намудрили?

Не должно так быть, если сервер правильно настроен.

А с помощью mod_rewrite разве нельзя сделать?

RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_HOST} ^(www\.)?site-1\.com$

RewriteRule ^robots.txt$ site1-robots.txt [L]

Ибо страницы, которые запрещены через роботс не убиваются, а не переиндексируются

Bomass, что-то новое.

Насколько свежие наблюдения?

Насколько я знаю, Google понимает...

Вот только Google ее и поймет, а вернее только его картиночный робот.

romanov,

1. Директива Host должна идти после всех директив Disallow

2. Директиву Host поддерживает только Яндекс, на что AiK и намекал.

Всего: 1011