robots.txt вообще ЧТО-НИБУДЬ запрещает?

12
AiK
На сайте с 27.10.2000
Offline
257
AiK
#11

Вам бы только на академика наехать :)

В любом случае не указывать завершающий /, желая закрыть только директорию опасно - есть хорошая вероятность запретить лишнее.

Я бы ещё на досуге подумал, как программист пишущий робот интерпретирует фразу

This can be a full path, or a partial path

Я по крайней мере сказал бы, что /dir1/dir2/ - это полный путь, /dir1/ это частичный путь, а /dir1 это вовсе и не путь, а файл без расширения. Просто потому, что для меня файл и путь до него - разные понятия.

C
На сайте с 19.09.2001
Offline
120
#12

AiK, Вы, на мой взгляд, все несколько усложняете.

Программисту, пишушему парсер robots.txt, как раз проще всего.

Он берет две строки:

1) Строку URI или URL или как там правильно называется то, что запрашивается GET'ом;

2) Строку Disallow из robots.txt соответствующего домена

и делает регистрозависимый поиск 2-й строки в начале 1-й. Если найдена, ссылка закрыта, если нет -- добро пожаловать робот!

Именно поэтому где-то рядом я писал Nicon'у, что при закрытии динамических страниц важен порядок параметров скрипта в ссылке.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
Sir[MAI]
На сайте с 22.10.2002
Offline
147
#13

NULL,

:) обшибся я когда писал 2-ой свой пост.

Суть следующая: Disallow: /sitemap - запрещает sitemap.html, а Disallow: /sitemap/Default.asp - именно www.site.ru/sitemap/Default.asp - такой URL роботы почему-то забирают.

Касаемо того, запретит ли Disallow: /sitemap дирректорию /sitemap/ - этого не знаю... Пока оставлю оба варианта.

С уважением, Сергей
NL
На сайте с 29.01.2003
Offline
212
#14
Пока оставлю оба варианта

И тогда для большей надежности в /sitemap/Default.asp залепить еще

<META NAME="ROBOTS" CONTENT="NOINDEX">

:D

C
На сайте с 19.09.2001
Offline
120
#15

Господа!

Давайте проясним два вопроса.

1. Собственно правильный синтаксис.

Так, если вы пишете Disallow: /sitemap, то запрещаете и sitemap.html и /sitemap/Default.asp, если написать точно Disallow: /sitemap/Default.asp, то это не означает запрета /sitemap/default.asp, так как для робота это два разных документа, хотя сервер выдает один и тот же.

2. Некая иннерционность поведения роботов и обновления баз поисковиков. Если эта ссылка была известна роботам раньше и вы ее решили закрыть, то не все вот так сразу и получится :(

Inktomi, например, еще полгода будет исправно запрашивать запрещенный к индексированию документ.

Sir[MAI]
На сайте с 22.10.2002
Offline
147
#16
Некая иннерционность поведения роботов и обновления баз поисковиков. Если эта ссылка была известна роботам раньше и вы ее решили закрыть, то не все вот так сразу и получится
Inktomi, например, еще полгода будет исправно запрашивать запрещенный к индексированию документ.

Про обновление базы поисковика я не говорил. 🙅 Хочу просто запретить роботам запрашивать определенные URL - все. Разве не для этого предназначен robots.txt?! 😕

C
На сайте с 19.09.2001
Offline
120
#17
Хочу просто запретить роботам запрашивать определенные URL - все. Разве не для этого предназначен robots.txt?!

Да, для этого. Но если робот раньше знал эту страницу, то он может еще некоторое время запрашивать запрещенный к индексированию документ.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий