Robots.txt via SSL

12
xgenius
На сайте с 10.01.2002
Offline
55
1560

Такая ситуация:

сайт с самого корня доступен только через https:// через 443 порт посредством .htaccess:

RewriteEngine On

RewriteCond %{SERVER_PORT} !443

RewriteRule (.*) https://www.site.com/ [R]

На 80-м порту открыта только папка 'shared', которая содержит .htaccess следующего содержания:

RewriteEngine Off

RewriteCond %{SERVER_PORT} !443

RewriteRule (.*) https://www.site.com/ [R]

Проблематика:

1) Будет ли кооректной в данном случае след. конструкция файла robots.txt:

User-agent: ia_archiver

Disallow: /

User-agent: *

Disallow: /

Allow: /shared/

То есть боту архивера закрываем доступ на индексацию полнотью, а всем остальным оставляем папку 'shared' в которой будет лежать вся общедоступная статика.

2) Стоит ли делать robots.txt доступным как исключение на 80-м порту, или же боты заберут его и через защищенный 443?

Буду благодарен всем кто может что-то посоветовать по данному поводу.

Мой Круг (http://dsemenov.moikrug.ru/) - Мой Блог (http://www.semenov.org/)
@
На сайте с 09.12.2003
Offline
134
#1
Как писал xgenius
1) Будет ли кооректной в данном случае след. конструкция файла robots.txt:

User-agent: *
Disallow: /
Allow: /shared/

Директива Allow недопустима в robots.txt

Нужно в Disallow: перечислять все что закрыто.

xgenius
На сайте с 10.01.2002
Offline
55
#2
Директива Allow недопустима в robots.txt

Допустима. Гугль, например, имеет четкие инструкции на этот счет. Хотя в общем протоколе Robots.txt ее нет. Пока нет.

@
На сайте с 09.12.2003
Offline
134
#3

Ох уж этот Гугль. Вечно что-нибудь выдумает не по протоколу :)

А нету ссылки где об этом почитать?

xgenius
На сайте с 10.01.2002
Offline
55
#4
А нету ссылки где об этом почитать?

В инете много написано. Также http://www.google.com/webmasters/faq.html (1. How should I request that Google not crawl part or all of my site?).

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#5
Гугль, например, имеет четкие инструкции на этот счет. Хотя в общем протоколе Robots.txt ее нет. Пока нет.

Вот когда будет, тогда и примените.

В инете много написано.

В инете много чего понаписано. Это никак не обязывает соблюдать эту директиву роботов Yahoo! и MSN, например. Поэтому лучше уж пользоваться стандартной директивой, запрещая всё, кроме shared.

И лучше секцию для ia_archiver вынести в конец файла.

xgenius
На сайте с 10.01.2002
Offline
55
#6
И лучше секцию для ia_archiver вынести в конец файла

Согласен.

В инете много чего понаписано. Это никак не обязывает соблюдать эту директиву роботов Yahoo! и MSN, например. Поэтому лучше уж пользоваться стандартной директивой, запрещая всё, кроме shared.

Тоже согласен. Только проблема в том, что директива 'Disallow:' обязывает указывать папки или файлы запрещенные к индексации, что не есть хорошо в плане секьюрности. C этой точки зрения внесение 'Allow:' в RFC было бы весьма логичным.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#7
Только проблема в том, что директива 'Disallow:' обязывает указывать папки или файлы запрещенные к индексации, что не есть хорошо в плане секьюрности.

Ну, это не совсем проблема. Они ведь так и так видны наружу - так как указание в robots.txt ухудшит ситуацию?

xgenius
На сайте с 10.01.2002
Offline
55
#8
Ну, это не совсем проблема. Они ведь так и так видны наружу - так как указание в robots.txt ухудшит ситуацию?

Как это видны? Вовсе даже не видны... :) Папочки что называется 'Non for public use'.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#9
Как это видны? Вовсе даже не видны...

А тогда что же вы хотите? Запретить роботу индексировать то, что он никогда не сможет проиндексировать и о наличии чего даже никогда не догадается?

[Удален]
#10

Я бы сделал так:

RewriteEngine On

RewriteBase /

RewriteCond %{SERVER_PORT} !^443

RewriteCond %{REQUEST_URI} !^(/shared/|/robots.txt$)

RewriteRule ^ https://www.site.com/%{REQUEST_URI} [R=301,L]

RewriteCond %{SERVER_PORT} ^443

RewriteRule ^robots.txt$ robots_https.txt [L]

RewriteCond %{SERVER_PORT} ^80

RewriteRule ^robots.txt$ robots_http.txt [L]

robots_https.txt:

User-Agent: *

Disallow: /

robots_http.txt:

пустой файл.

(Потому что www.site.com:80 и www.site.com:443 - это два разных хоста).

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий