robots.txt & версия для печати & mod_rewrite

180

grey109

21 октября 2007, 13:51

765

Есть сайт, который использует mod_rewrite. Адреса страниц имеют вид типа www.site.ru/дд/чч/гг/index.html. Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html

Вопрос: можно ли в robots.txt как-то запретить индексировать страницы содержащие /print/ ? Насколько я знаю, можно только указывать с него должен начинаться урл запрещенный к индексации, но тем не менее хотелось бы услышать точный ответ.

B

141

beep

21 октября 2007, 14:08

#1

а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.

180

grey109

21 октября 2007, 14:13

#2

Верно, и мне как раз их надо убрать из выдачи, т.к. там нет ни навигации сайта ни рекламы :-)

142

rmikel

21 октября 2007, 14:13

#3

beep:
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.

если print-версия будет находиться в индексации и находится выше оригинальной версии, то людям не просто будет попасть на главную страницу (большинство интернет-пользователей), так как на этой странице нет выхода на главную страницу или статью.

grey109, http://www.pikalov.kiev.ua/?p=21

- Здесь (http://www.sape.ru/r.fa62530507.php) становятся богатыми буратинами... и здесь (http://www.mainlink.ru/?partnerid=11422) тоже. ;) - "В жизни нет ничего такого, ради чего стоило бы спешить" (c)то-то сказал.

E

102

egorych

21 октября 2007, 15:07

#4

grey109:
можно только указывать с него должен начинаться урл запрещенный к индексации

Все верно

User-Agent: *

Disallow: /дд/чч/гг/print

180

grey109

21 октября 2007, 15:36

#5

egorych:
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print

В том-то вся и проблема, что прописать все страницы запрещенные к индексации - нереально, да и одной строкой их всех не заменить.

E

102

egorych

21 октября 2007, 16:46

#6

Ну а так:

User-Agent: *

Disallow: /*/*/*/print

Вроде бы это тоже работает. Точно не знаю.

180

grey109

23 октября 2007, 11:14

#7

egorych:
Ну а так:
User-Agent: *
Disallow: /*/*/*/print

Вроде бы это тоже работает. Точно не знаю.

Не нашел такого в спецификации по robots.txt. Похоже нельзя использовать "регулярные" выражения.

E

102

egorych

23 октября 2007, 11:19

#8

grey109:
Похоже нельзя использовать "регулярные" выражения

В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.

Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:

User-agent: *
Disallow: /*.jpg$

Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений.

Это из моего перевода.

Насчет Яндекса не знаю, но по идее он тоже должен поддерживать и обрабатывать такие недокументированные возможности.

R

102

Rainbow

11 января 2008, 11:35

#9

grey109:
Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html

Может сделать www.site.ru/print/дд/чч/гг/index.html и Disallow /print/

С уважением, Павел

[Удален]

11 января 2008, 11:41

#10

http://help.yandex.ru/webmaster/?id=996567#996572

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Что делать, чтобы попасть в ответы Google Bard