robots.txt & версия для печати & mod_rewrite

grey109
На сайте с 15.06.2005
Offline
174
752

Есть сайт, который использует mod_rewrite. Адреса страниц имеют вид типа www.site.ru/дд/чч/гг/index.html. Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html

Вопрос: можно ли в robots.txt как-то запретить индексировать страницы содержащие /print/ ? Насколько я знаю, можно только указывать с него должен начинаться урл запрещенный к индексации, но тем не менее хотелось бы услышать точный ответ.

B
На сайте с 29.01.2007
Offline
141
#1

а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.

grey109
На сайте с 15.06.2005
Offline
174
#2

Верно, и мне как раз их надо убрать из выдачи, т.к. там нет ни навигации сайта ни рекламы :-)

rmikel
На сайте с 25.05.2007
Offline
142
#3
beep:
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.

если print-версия будет находиться в индексации и находится выше оригинальной версии, то людям не просто будет попасть на главную страницу (большинство интернет-пользователей), так как на этой странице нет выхода на главную страницу или статью.

grey109, http://www.pikalov.kiev.ua/?p=21

- Здесь (http://www.sape.ru/r.fa62530507.php) становятся богатыми буратинами... и здесь (http://www.mainlink.ru/?partnerid=11422) тоже. ;) - "В жизни нет ничего такого, ради чего стоило бы спешить" (c)то-то сказал.
E
На сайте с 29.03.2007
Offline
102
#4
grey109:
можно только указывать с него должен начинаться урл запрещенный к индексации

Все верно

User-Agent: *

Disallow: /дд/чч/гг/print

grey109
На сайте с 15.06.2005
Offline
174
#5
egorych:
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print

В том-то вся и проблема, что прописать все страницы запрещенные к индексации - нереально, да и одной строкой их всех не заменить.

E
На сайте с 29.03.2007
Offline
102
#6

Ну а так:

User-Agent: *

Disallow: /*/*/*/print

Вроде бы это тоже работает. Точно не знаю.

grey109
На сайте с 15.06.2005
Offline
174
#7
egorych:
Ну а так:
User-Agent: *
Disallow: /*/*/*/print

Вроде бы это тоже работает. Точно не знаю.

Не нашел такого в спецификации по robots.txt. Похоже нельзя использовать "регулярные" выражения.

E
На сайте с 29.03.2007
Offline
102
#8
grey109:
Похоже нельзя использовать "регулярные" выражения

В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.

Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:

User-agent: *
Disallow: /*.jpg$

Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений.

Это из моего перевода.

Насчет Яндекса не знаю, но по идее он тоже должен поддерживать и обрабатывать такие недокументированные возможности.

R
На сайте с 06.03.2002
Offline
102
#9
grey109:
Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html

Может сделать www.site.ru/print/дд/чч/гг/index.html и Disallow /print/

С уважением, Павел
[Удален]
#10

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий