robots.txt вообще ЧТО-НИБУДЬ запрещает?

Sir[MAI] · 2003-03-05T07:17:45.0000000Z

Добрался наконец до логов сайта и вижу: Роботы забирают те страницы, URL которых прописан в Disallow в robots.txt Пример: User-agent: * Disallow: /srchresult.asp Disallow: /404.asp Disallow: /sitemap/ По логам эти URL забирались роботами! Даже /sitemap/default.asp , в запрете которой сомневаться не приходится! И разумеется логичный вопрос: это так и должно быть или все-таки что-то не так?!!!!

257

AiK

5 марта 2003, 23:21

#11

Вам бы только на академика наехать :)

В любом случае не указывать завершающий /, желая закрыть только директорию опасно - есть хорошая вероятность запретить лишнее.

Я бы ещё на досуге подумал, как программист пишущий робот интерпретирует фразу

This can be a full path, or a partial path

Я по крайней мере сказал бы, что /dir1/dir2/ - это полный путь, /dir1/ это частичный путь, а /dir1 это вовсе и не путь, а файл без расширения. Просто потому, что для меня файл и путь до него - разные понятия.

C

120

Cherny

6 марта 2003, 09:20

#12

AiK, Вы, на мой взгляд, все несколько усложняете.

Программисту, пишушему парсер robots.txt, как раз проще всего.

Он берет две строки:

1) Строку URI или URL или как там правильно называется то, что запрашивается GET'ом;

2) Строку Disallow из robots.txt соответствующего домена

и делает регистрозависимый поиск 2-й строки в начале 1-й. Если найдена, ссылка закрыта, если нет -- добро пожаловать робот!

Именно поэтому где-то рядом я писал Nicon'у, что при закрытии динамических страниц важен порядок параметров скрипта в ссылке.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

147

Sir[MAI]

7 марта 2003, 07:53

#13

NULL,

:) обшибся я когда писал 2-ой свой пост.

Суть следующая: Disallow: /sitemap - запрещает sitemap.html, а Disallow: /sitemap/Default.asp - именно www.site.ru/sitemap/Default.asp - такой URL роботы почему-то забирают.

Касаемо того, запретит ли Disallow: /sitemap дирректорию /sitemap/ - этого не знаю... Пока оставлю оба варианта.

С уважением, Сергей

NL

212

NULL

7 марта 2003, 08:05

#14

Пока оставлю оба варианта

И тогда для большей надежности в /sitemap/Default.asp залепить еще

<META NAME="ROBOTS" CONTENT="NOINDEX">

:D

C

120

Cherny

7 марта 2003, 09:37

#15

Господа!

Давайте проясним два вопроса.

1. Собственно правильный синтаксис.

Так, если вы пишете Disallow: /sitemap, то запрещаете и sitemap.html и /sitemap/Default.asp, если написать точно Disallow: /sitemap/Default.asp, то это не означает запрета /sitemap/default.asp, так как для робота это два разных документа, хотя сервер выдает один и тот же.

2. Некая иннерционность поведения роботов и обновления баз поисковиков. Если эта ссылка была известна роботам раньше и вы ее решили закрыть, то не все вот так сразу и получится :(

Inktomi, например, еще полгода будет исправно запрашивать запрещенный к индексированию документ.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

147

Sir[MAI]

7 марта 2003, 09:56

#16

Некая иннерционность поведения роботов и обновления баз поисковиков. Если эта ссылка была известна роботам раньше и вы ее решили закрыть, то не все вот так сразу и получится
Inktomi, например, еще полгода будет исправно запрашивать запрещенный к индексированию документ.

Про обновление базы поисковика я не говорил. 🙅 Хочу просто запретить роботам запрашивать определенные URL - все. Разве не для этого предназначен robots.txt?! 😕

C

120

Cherny

7 марта 2003, 10:25

#17

Хочу просто запретить роботам запрашивать определенные URL - все. Разве не для этого предназначен robots.txt?!

Да, для этого. Но если робот раньше знал эту страницу, то он может еще некоторое время запрашивать запрещенный к индексированию документ.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Зачем быть уникальным в мире, где все можно скопировать