robots.txt - особые инструкции для гугла и куда вставлять sitemap и host

vigilant
На сайте с 14.10.2010
Offline
82
2897

всем привет, подскажите, пожалуйста

сейчас есть robots.txt вида

User-agent: *

Disallow: /1/
Disallow: /2/
Disallow: /3
Sitemap: http://......ru/sitemap.xml
Host: ......ru

надо разрешить гуглу индексировать кое-что из того, что запрещено остальным, пусть /2/, например

вопрос заключается в том, как правильно построить сам файл и как правильно прописать host и sitemap...

User-agent: *

Disallow: /1/
Disallow: /2/
Disallow: /3
User-agent: Googlebot
а что тут-то писать?
Sitemap: http://......ru/sitemap.xml
Host: ......ru

т.е. я не понимаю, гугл в таком варианте учтет все инструкции для User-agent: *, а потом скорректирует их в соответствии со своей секцией, или при наличии "User-agent: Googlebot" гугл "забьет" на секцию "User-agent: *" и будет выполнять ТОЛЬКО инструкции из "User-agent: Googlebot"?

и куда пихать host с sitemap-ом?.. (

arman1231
На сайте с 29.04.2011
Offline
78
#1

Вам нужно точно определиться с тем что будет сканировать гугл, записать это в файле robots, затем, в этом же файле вы можете записать остальные директории для сканирования, что касается host и sitemap, то лучше писать в конце robots, хотя на сколько это лучше я не знаю.

Дорогу осилит идущий
vigilant
На сайте с 14.10.2010
Offline
82
#2
arman1231:
Вам нужно точно определиться с тем что будет сканировать гугл, записать это в файле robots, затем, в этом же файле вы можете записать остальные директории для сканирования, что касается host и sitemap, то лучше писать в конце robots, хотя на сколько это лучше я не знаю.

kimberlit
На сайте с 13.03.2007
Offline
370
#3

vigilant, в Яндексе и в Google есть подробные мануалы с примерами. Почему бы не почитать их для общего развития?

vigilant
На сайте с 14.10.2010
Offline
82
#4
kimberlit:
vigilant, в Яндексе и в Google есть подробные мануалы с примерами. Почему бы не почитать их для общего развития?

из того, что я нагуглил, я не получил ответа на 2 вопроса:

если есть общая секция и для конкретного бота, как они влияют друга на друга и куда в этой истории пихать host и sitemap.. догадываюсь, что в конец, но не вижу, где это описано

google.com/robots.txt и yandex.ru/robots.txt таких нюансов не имеют

kimberlit
На сайте с 13.03.2007
Offline
370
#5
vigilant:
из того, что я нагуглил

Я говорил об официальной документации, а не о высерах всяких блогеров.

siv1987
На сайте с 02.04.2009
Offline
427
#6

http://help.yandex.ru/webmaster/?id=996567#996568


В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются.

Тем не менее директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.
vigilant
На сайте с 14.10.2010
Offline
82
#7

спасибо!

тогда придется продублировать для гугла набор disallow, которые для него нужны и исключить лишние, я, кажется, понял

User-agent: *

Disallow: /1/
Disallow: /2/
Disallow: /3
User-agent: Googlebot
Disallow: /1/
Disallow: /3
Sitemap: http://......ru/sitemap.xml
Host: ......ru

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий