Ошибка на robotstxt.org.ru или небольшой FAQ по robots.txt

B
На сайте с 04.12.2008
Offline
69
1650

Доброе время суток господа

Зашел в поиск. Нашел множество топиков "robots.txt".

Прочел топиков 100-120.

Вопросы остались.

ВОПРОС 1 - Закрывающий слеш

На странице

http://robotstxt.org.ru/RobotsExclusion/guide

есть "Закрыть от индексации только несколько каталогов"

в примере указанно Disallow: /cgi-bin/

смотрим сайт далее

http://robotstxt.org.ru/RobotstxtErrors

в "Url в директиве Host"

уже указанно Disallow: /cgi-bin

То есть закрывающий слеш... то его нет.

Так как же всетаки правильно писать?

ВОПРОС 2 - Кодировка

Смотрел много факов по роботс но нигде не замечал какая должна

быть кодировка у оного. Сохранять его в UTF-8 аль в ANSI ?

ВОПРОС 3 - Яндекс первый или последний ?

Всетаки в какой последовательности лучше выставлять юсер-агент

(Работая вместе с яндексом)

Прочитав много сообщений пришел что больший % у в-та:

User-agent: Yandex
Disallow: /*.doc$

User-agent: *
Disallow: /*.doc$

(яндекс первый)

Но всеже конкретного обоснования данной последовательноси не нашел.

Расскажите пожалуйста почему яндекс предпочтительней ставить первым

ВОПРОС 4 - Использование суб доменов

У меня несколько субдоменов вида en.site.ru ru.site.ru de.site.ru

Субдомены берутся из папок вида site.ru/en/ site.ru/de

На главной странице site.ru есть немного текста и ссылки на переход в субдомены

В субдоменах разные языковые версии сайта

(зарегить отдельный домен для каждого языка пока не представляется возможным)

В htaccess написанно:

	RewriteCond %{HTTP_HOST} (www\.)?en\.site\.ru$
RewriteCond %{REQUEST_URI} !^(/)?en/
RewriteRule ^(.*)$ en/$1

RewriteCond %{HTTP_HOST} (www\.)?ru\.site\.ru$
RewriteCond %{REQUEST_URI} !^(/)?ru/
RewriteRule ^(.*)$ ru/$1

RewriteCond %{HTTP_HOST} (www\.)?de\.site\.ru$
RewriteCond %{REQUEST_URI} !^(/)?de/
RewriteRule ^(.*)$ de/$1

Подскажите пожалуйста:

Как лучше прописать robots.txt для такой "схемы"?

- Интересуют моменты закрытия ненужного контента(папки/файлы) для субдоменов

- А также интересует момент как лучше сделать в robots.txt для мультиязычных субдоменов

Предпологаю что в каждый субдомен нужно будет положить по роботсу

В корень сайта не класть

Но тогда что делать с запретом папок находящихся по адресу site.ru/img/

и из которых берутся картинки(img просто пример) которые нужно закрыть а

в некоторых случаях открыть...

Всем откликнувшимся заранее огромное спасибо!

!FrykT
На сайте с 14.05.2007
Offline
120
#1

1. и так и так можно. А для яндекса ещё и * можно указывать в качестве "чего угодно в урле".

2. ANSI (впрочем, это не важно, у вас только латиница будет в файле)

3. яндекс - первый, запись со звёздочкой - последняя в списке.

4. Там, у вас, в принципе, всё верно написано. robots.txt можно также перенаправлять на скрипт, который будет генерировать нужный контент.

Папки можно закрыть паролем или сделать Forbidden (пример: RewriteRule ^my.txt$ - [F])

B
На сайте с 04.12.2008
Offline
69
#2

Спасибо !FrykT

!FrykT:
4. Там, у вас, в принципе, всё верно написано.

вы имеете ввиду для каждого поддомена свой роботс?

!FrykT:
robots.txt можно также перенаправлять на скрипт, который будет генерировать нужный контент.

тоже не понял :o - в зависимости от папки/языковой версии генерится определнный роботс?

(перечитал раз 6 но так и не понял)

!FrykT:
Папки можно закрыть паролем или сделать Forbidden (пример: RewriteRule ^my.txt$ - [F])

:) - нет часть возможно придется открыть

(всегда интересовало может ли спайдер читать htaccess :) ?)

B
На сайте с 04.12.2008
Offline
69
#3

Добавлю/обозначусь итоговые вопросы:

1.В какой и главное почему последовательности ставить в роботс?

яндекс а потом все остальные ПС

или
все ПС а потом яндекс

2.Прочел Помогаем написать ФАК - зеркала с ввв и без

- задумался над схемой как правильно индексировать новый/нулевой сайт на который нет внеш ссылок?

1. в роботс указать основной хост.
2. подождать пока гугла и яндекс проиндексируют + определят зеркала + склеят
3. потом только ставить htaccess 301 с www на без www
4. поставить Sitemaps

или просто создать htaccess c 301 и в роботс прописать хост?

3.Как правильно прописать карту сайта:

для каждого поискового бота в роботс прописывать карту сайта

или через пробел в конце роботса?

Всем откликнувшимся большое спасибо!

orphelin
На сайте с 02.07.2006
Offline
261
#4
!FrykT:
1. и так и так можно. А для яндекса ещё и * можно указывать в качестве "чего угодно в урле".

не совсем так по первому пункту.

если у вас указано без слеша на конце, т.е. Disallow: /cgi-bin

то будет запрещен к индексации также и файл с именем cgi-bin в корневой дериктории, если он есть. если со слешем Disallow: /cgi-bin/ - то только то что в этой папке, причем даже не физически, а все URL'ы которые так начинаются.

orphelin добавил 31.08.2009 в 23:13

blacks:
2. подождать пока гугла и яндекс проиндексируют + определят зеркала + склеят
3. потом только ставить htaccess 301 с www на без www

если сайт новый, то ждать склейки яндексом домена с www и без не имеет смысла. лучше сразу же определить главное зеркало и на него сделать 301 редирект.

B
На сайте с 04.12.2008
Offline
69
#5
orphelin:
не совсем так по первому пункту.

Большое спасибо!!!

А по вопросам из 4го поста не подскажите🙄:o ?

B
На сайте с 04.12.2008
Offline
69
#6

Господа, если вам не сложно ответе на мо вопросы из 4го поста?

Заранее ОГРОМНОЕ СПАСИБО всем откликнувшимся!

R
На сайте с 09.09.2006
Offline
30
rux
#7
1.В какой и главное почему последовательности ставить в роботс?
яндекс а потом все остальные ПС
или
все ПС а потом яндекс

Почитайте хелп Яндекса, там написано, как бот разбирает robots.txt.

Он ищет подстроку "yandex", если находит, то игнорирует директивы, находящиеся выше и выполняет находящиеся ниже.

То есть, вариант:


User-agent: *
Disallow: /secret

User-agent: Yandex
Host: www.domain.tld

приведет к тому, что Яндекс проиндексирует каталог secret, в отличие от прочих поисковиков.

Вот об этом нужно помнить, а кто будет сначала, кто после, на самом деле неважно.

как правильно индексировать новый/нулевой сайт на который нет внеш ссылок?

Не надо ничего выдумывать, сразу же

создать htaccess c 301 и в роботс прописать хост
и
поставить Sitemaps
.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий