Oleg Rihkrand

Рейтинг
7
Регистрация
05.03.2010
SlavMix:
Гугл тоже иногда индексирует документы, доступ к которым запрещен в роботсе, приходилось удалять их из выдачи в "инструментах для вебмастеров".

Насколько я понимаю роботс - это всего лишь рекомендация для поисковых ботов. И они не обязаны четко ей следовать.

Конструкция Disallow: без слеша / разрешает роботу индексировать все

Oleg Rihkrand добавил 05.03.2010 в 13:24

Oleg Rihkrand:
Конструкция Disallow: без слеша / разрешает роботу индексировать все

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: *

Disallow: /

Запрет доступа определенного робота к каталогу /private/:

User-agent: googlebot

Disallow: /private/

[править] Нестандартные директивы

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: *

Crawl-delay: 10

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html

Disallow: /album1/

[править] Расширенный стандарт

В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: *

Disallow: /downloads/

Request-rate: 1/5 # загружать не более одной страницы за пять секунд

Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

12
Всего: 11