Запрет в robots.txt для рамблера

vvp
На сайте с 21.07.2005
Offline
111
vvp
807

Нужно закрыть на индексацию файлы 403.shtml 404.shtml 500.shtml для всех поисковиков, а для бота рамблера закрыть папку /cgi-bin/ и 403.shtml 404.shtml 500.shtml

Правильно ли написать в robots.txt следующее:

User-Agent: *

Disallow: /403.shtml

Disallow: /404.shtml

Disallow: /500.shtml

Host: www.site.ru

User-agent: StackRambler

Disallow: /cgi-bin/

O
На сайте с 01.04.2005
Offline
9
#1
vvp:
Нужно закрыть на индексацию файлы 403.shtml 404.shtml 500.shtml для всех поисковиков, а для бота рамблера закрыть папку /cgi-bin/ и 403.shtml 404.shtml 500.shtml
Правильно ли написать в robots.txt следующее:


Disallow: /403.shtml
Disallow: /404.shtml
Disallow: /500.shtml
Host: www.site.ru

User-agent: StackRambler

Спецификация не предусматривает закрытие конкретных файлов, а только директорий. Поэтому предлагаю создать онную, типа ErrorDocument и туда забросить все страницы ошибок, в этом случае роботс выглядит так:

User-agent: StackRambler

Disallow: /cgi-bin
Disallow: /ErrorDocument
Host: ww.site.ru

User-Agent: *
Disallow: /ErrorDocument
SS
На сайте с 03.09.2004
Offline
141
#2
Спецификация не предусматривает закрытие конкретных файлов, а только директорий.

Кто Вам сказал такую чушь?

Смотрим в стандарт - http://www.robotstxt.org/wc/norobots.html

Приведенный там пример:

# robots.txt for http://www.example.com/
User-agent: *
Disallow: /cyberworld/map/ # This is an infinite virtual URL space
Disallow: /tmp/ # these will soon disappear
Disallow: /foo.html

Посмеете оспорить?

И на будущее - подобная конструкция Disallow: /foo.html закрывает от индексации любой урл, начинающийся на site.ext/foo.html

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
wolf
На сайте с 13.03.2001
Offline
1183
#3
Нужно закрыть на индексацию файлы 403.shtml 404.shtml 500.shtml для всех поисковиков, а для бота рамблера закрыть папку /cgi-bin/ и 403.shtml 404.shtml 500.shtml
Правильно ли написать в robots.txt следующее:

User-Agent: *
Disallow: /403.shtml
Disallow: /404.shtml
Disallow: /500.shtml
Host: www.site.ru

User-agent: StackRambler
Disallow: /cgi-bin/

Нет, секцию для Рамблера надо оформлять полностью, т.е. занести туда все запрещаемые файлы:

User-Agent: StackRambler

Disallow: /403.shtml

Disallow: /404.shtml

Disallow: /500.shtml

Disallow: /cgi-bin/

Т.к. если для какого-то робота есть отдельная секция, то он должен выполнять только ее директивы и игнорировать общую секцию.

Кстати, если Вы используете директиву Host, которую поддерживает только Яндекс, то я бы порекомендовал оформлять еще и отдельно секцию для Яндекса с этой директивой - неизвестно, как поведут себя другие боты, обнаружив в секции нестандартные директивы, они могут посчитать секцию ошибочной и проигнорировать все ее директивы.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
O
На сайте с 01.04.2005
Offline
9
#4

Выходит вот такая конструкция:

User-Agent: StackRambler

Disallow: /403.shtml
Disallow: /404.shtml
Disallow: /500.shtml
Disallow: /cgi-bin/

User-agent: Yandex # секция для Яндекса если всеж нужно указать основное зеркало
Disallow: /403.shtml
Disallow: /404.shtml
Disallow: /500.shtml
Host: ww.site.ru

User-Agent: *
Disallow: /403.shtml
Disallow: /404.shtml
Disallow: /500.shtml

И всеж, хоть я и не прав был с отдельными файлами, мне лично такая конструкция не нравится, я бы вынес в отдельную директорию.

vvp
На сайте с 21.07.2005
Offline
111
vvp
#5

Понял, всем спасибо!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий