Еще раз про роботс.тхт

М
На сайте с 08.09.2006
Offline
223
503

Допустим структура сайта такова:

в корне лежат папки 10 (1, 2,3, ...) и в каждой этой папке есть еще одна папка, например print.

Верна ли будет такая запись в роботс.тхт, если мы хотим во всех этих папках закрыть от индексации папку print

Disallow: /*/print/

???

Или нужно все 10 адресов пречислить?

Конечно мне не сложно сделать 10 записей, но что если вопрос будет стоять о 100 и более записях.

Не бойся неизбежного... Уже не продаю авто морды...
TheEye
На сайте с 29.11.2006
Offline
104
#1

Вопрос интересный, присоединяюсь тоже.

ЗЫ А 10 строчек один раз совсем в лом прописать? 🚬

____________________________________________
K
На сайте с 31.01.2001
Offline
737
#2

В стандарте звездочки не предусмотрены.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
М
На сайте с 08.09.2006
Offline
223
#3
Kost:
В стандарте звездочки не предусмотрены.

И как тогда быть , если мне надо закрыть от индексацию все что находится в папке print, которая явлется вложенной для тысячи директорий?

Что мне ручками надо прописывать все 1000 путей?

Неужели на этот счет не предусмотрен какой-то выход?

DoTJ
На сайте с 09.10.2005
Offline
33
#4

Вот рамблер об этом:


Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

http://www.rambler.ru/doc/robots.shtml

Гугл об этом:



Я не хочу перечислять все файлы, которые необходимо заблокировать. Можно ли использовать соответствие шаблону?

Да, робот Google распознает соответствия некоторым шаблонам. Это расширение стандарта, поэтому не все роботы могут ему следовать.

Соответствие последовательности символов с использованием *
Чтобы соответствовать последовательности символов, можно использовать звездочку (*). Например, для блокирования доступа ко всем вложенным каталогам, начинающимся с "private", можно использовать следующую запись:

User-Agent: Googlebot
Disallow: /private*/

Чтобы заблокировать доступ ко всем URL, включающим вопросительный знак (?), можно использовать следующую запись:

User-Agent: *
Disallow: /*?*

Соответствие последним символам URL с использованием $
Чтобы задать соответствие окончанию URL, можно использовать символ $. Например, для блокирования URL, заканчивающихся на .asp, можно использовать следующую запись:

User-Agent: Googlebot
Disallow: /*.asp$

Это соответствие шаблону можно использовать в сочетании с инструкцией Allow. Например, если ? обозначает идентификатор сеанса, можно исключить все URL с этими идентификаторами для гарантии, что робот Google не будет сканировать повторяющиеся страницы. Однако URL, заканчивающиеся на ? могут быть определенными версиями этой страницы, которые Вы не хотите включать. Для такой ситуации можно настроить файл robots.txt следующим образом:

User-Agent: *
Allow: /*?$
Disallow: /*?

Строка Disallow:/ *? будет блокировать все URL, включающие ? (точнее, он будет блокировать все URL, начинающиеся с имени домена, за которым следует любая строка, знак вопроса и любая строка).

Строка Allow: /*?$ будет разрешать все URL, заканчивающиеся на ? (точнее, она будет разрешать все URL, начинающиеся с имени домена, за которыми следует строка, завершающаяся знаком вопроса).

http://www.google.com/support/webmasters/bin/answer.py?answer=40367&ctx=sibling

Всегда нужны места под статьи Также куплю ссылки с Ваших ресурсов с постоянным размещением
Kislov
На сайте с 29.04.2006
Offline
185
#5

Если я не ошибаюсь, то можно закрыть от индексации ссылки ведущие на данную страницу. Но это не есть гуд

Disallow: /*/print/

Роботы такую строчку либо проигнорирют либо не правильно поймут. А в последнем случае возможно и выпадение всего сайта из индекса.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий