robots.txt запрет от индексации

ikaro
На сайте с 21.01.2009
Offline
10
500

Надо запретить от индексации каталоги: /page/1/, /page/2/, /page/3/...

Поможет ли это сделать директива: Disallow: /page/ или надо использовать Disallow: /page без "/" на конце и в чём отличие?

kimberlit
На сайте с 13.03.2007
Offline
370
#1

Без слеша закроет все файлы, которые начинаются с 'page' и лежат в корне. Если таких нет, то можно и так написать.

ikaro
На сайте с 21.01.2009
Offline
10
#2
kimberlit:
Без слеша закроет все файлы, которые начинаются с 'page' и лежат в корне. Если таких нет, то можно и так написать.

Ясно, спасибо.

nicha
На сайте с 29.10.2005
Offline
142
#3

Требуются запретить сайт от индексации для всех роботов, кроме яндекса

Правильно ли я составил роботс? Или каждого не нужного бота запретить отдельно?

И верные ли директивы для WP?

User-agent: Yandex

Host: site.com

Disallow: /cgi-bin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /tag/

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Sitemap: http://site.com/sitemap.xml

User-agent: *

Disallow: /

J
На сайте с 13.11.2008
Offline
155
#4

nicha составили правильно, а вот на счет директив не знаю т.к. не юзаю wp...

asfadel
На сайте с 29.12.2009
Offline
40
#5

nicha, ошибочка. "Host:www.iklmn.ru" нужно ставить после Disallow:

Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow').

http://help.yandex.ru/webmaster/?id=996567#996574

Ну и в качестве доп.примера мой robots.txt:

User-agent: *

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /

Sitemap: http://site.ru/sitemap.xml

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /xmlrpc.php
Disallow: /xmlrpc.php?rsd
Allow: /wp-content/uploads
Host: site.ru

Т.к. Я сам предупредил, что на Host "другие" поисковые системы могут подавиться, унёс его в хвост, после sitemap как и сам Я, который с такой вот конструкцией справляется (эмпирически проверенно), а его Host уж точно не помешает никому. Так же, если вы пользуетесь ЧПУ, стоит запрет на линки с параметрами ? и добавлен Allow на загруженные картинки к материалам сайта. На счёт расширенного объяснения Я-у что ему можно-неможно - не проверял. Может и User-agent: * хватит.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий