robots.txt вообще ЧТО-НИБУДЬ запрещает?

12
Sir[MAI]
На сайте с 22.10.2002
Offline
147
1521

Добрался наконец до логов сайта и вижу:

Роботы забирают те страницы, URL которых прописан в Disallow в robots.txt

Пример:

User-agent: *
Disallow: /srchresult.asp
Disallow: /404.asp
Disallow: /sitemap/

По логам эти URL забирались роботами! Даже /sitemap/default.asp, в запрете которой сомневаться не приходится!

И разумеется логичный вопрос: это так и должно быть или все-таки что-то не так?!!!!

С уважением, Сергей
[Удален]
#1
И разумеется логичный вопрос: это так и должно быть или все-таки что-то не так?!!!!

Что-то не так! Должно работать.

Sir[MAI]
На сайте с 22.10.2002
Offline
147
#2

Вот полный текст robots.txt. Роботы берут его с ответом 200.

--------------------------------------------

User-agent: Yandex

Disallow: /default.asp?MSCSProfile

Disallow: /sitemap

Disallow: /products/job.asp

User-agent: *

Disallow: /error/

Disallow: /srchresult.asp

Disallow: /404.asp

Disallow: /vacancy_form.asp

Disallow: /basket.asp

Disallow: /redir.asp

Disallow: /products/

Disallow: /default.asp?MSCSProfile

Disallow: /technodesign_product.asp

Disallow: /partnering/

Disallow: /sitemap/Default.asp

Disallow: /science/

Disallow: /srchdept.asp

-------------------------------------------------

Я вот думаю, может отдельный User-agent: Yandex виноват??

N
На сайте с 21.11.2001
Offline
152
#3

Да нет, отдельный User-agent тут не причем. Почитайте этот топик, там такая "драка" была по поводу отдельных User-agent`ов. Там есть URL для robots.txt глазами роботов Яндекса.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#4
Даже /sitemap/default.asp, в запрете которой сомневаться не приходится!
Disallow: /sitemap/Default.asp

Сразу видно виндового программиста :) Для справки:

/sitemap/default.asp и /sitemap/Default.asp - вообще говоря разные документы. Т.е. запретили одно, а робот ходит к другому.

rfc2616 quotation


3.2.3 URI Comparison

When comparing two URIs to decide if they match or not, a client
SHOULD use a case-sensitive octet-by-octet comparison of the entire
URIs, with these exceptions:

- A port that is empty or not given is equivalent to the default
port for that URI-reference;
- Comparisons of host names MUST be case-insensitive;
- Comparisons of scheme names MUST be case-insensitive;
- An empty abs_path is equivalent to an abs_path of "/".
Characters other than those in the "reserved" and "unsafe" sets (see RFC 2396 [42]) are equivalent to their ""%" HEX HEX" encoding.

For example, the following three URIs are equivalent:
http://abc.com:80/~smith/home.html
http://ABC.com/%7Esmith/home.html
http://ABC.com:/%7esmith/home.html

Как видно, нечуствительны к регистру только схема (http://) и имя хоста.

N
На сайте с 21.11.2001
Offline
152
#5
Как писал AiK
Для справки:
/sitemap/default.asp и /sitemap/Default.asp - вообще говоря разные документы. Т.е. запретили одно, а робот ходит к другому.

Говорю Вам как виндовый программер - /sitemap/default.asp и /sitemap/Default.asp для IIS`a один и тот же документ.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#6
Говорю Вам как виндовый программер

Я это знаю :) Но для робота они-то разные!

NL
На сайте с 29.01.2003
Offline
212
#7

В первый раз было написано:

Disallow: /sitemap/

в этом случае запрещены и /sitemap/default.asp и /sitemap/Default.asp и т.д

Во второй раз было написано:

Disallow: /sitemap/Default.asp

в этом случае запрещен /sitemap/Default.asp и разрешен /sitemap/default.asp

Sir[MAI], Вы определитесь, что у Вас написано в robot.txt :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#8

Не уверен, но что-то мне подсказывает, что и

Disallow: /sitemap

директорию не запрещает :)

Я бы писал так

Disallow: /sitemap/

NL
На сайте с 29.01.2003
Offline
212
#9

Отнюдь. Вот пример из стандарта:

For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

C
На сайте с 19.09.2001
Offline
120
#10
Как писал AiK
Не уверен, но что-то мне подсказывает, что и
Disallow: /sitemap
директорию не запрещает :)
Я бы писал так
Disallow: /sitemap/

Ай-ай-ай, господин академик! 🙅

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий