Хитрый Robots.txt

QY
На сайте с 10.01.2009
Offline
57
1248

роботс описан вот так

User-agent: *

Disallow: /search_posts_grouped.xml

Disallow: /search_posts.xml

Disallow: /search_users_by_date.xml

Disallow: /search_users_by_interest_name.xml

Disallow: /search_users_by_interest.xml

Disallow: /search_users_by_name.xml

Disallow: /search_users_by_place.xml

Allow: /posts.xml?tb=

Disallow: /posts.xml?

Disallow: /friends.xml?

Я правильно понимаю что он запрещает индексится странице? даже если в адешку его сувать ничего не выйдет? в чем еще тут хитрость? как я понимаю страницу вида posts.xml?tb= я всеже могу в адешку вставить ) так?

seonik
На сайте с 29.06.2006
Offline
98
#1
QMSY:
Я правильно понимаю что он запрещает индексится странице?

Именно для этого он и нужен.

Все невозможное возможно!
QY
На сайте с 10.01.2009
Offline
57
#2

Я знаю для чего он нужен )

Allow: /posts.xml?tb= но Disallow: /posts.xml? вот где вопрос...сожрет ли адекша линк вида сайт/папка/posts.xml?tb=

sunrise
На сайте с 29.10.2003
Offline
195
#3
QMSY:
Я знаю для чего он нужен )

Allow: /posts.xml?tb= но Disallow: /posts.xml? вот где вопрос...сожрет ли адекша линк вида сайт/папка/posts.xml?tb=

А попробовать не судьба?

sunrise добавил 10.01.2009 в 16:54

У Яндекса есть кстати сервис специальный для подобных проверок

Svonik
На сайте с 15.08.2008
Offline
138
#4
sunrise:
А попробовать не судьба?

sunrise добавил 10.01.2009 в 16:54
У Яндекса есть кстати сервис специальный для подобных проверок

ТС вот вам ссылка. http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml

QY
На сайте с 10.01.2009
Offline
57
#5

Спасибо!

И последний вопрос!

Сайт обычный

http://сайт/ - разрешен! но это весь сайт а там лента с новостями.

http://сайт/posts.xml? - запрещен! это и есть эти новости.

получается что вес ссылок с новостей не учтутся поисковиком, так?

seonik
На сайте с 29.06.2006
Offline
98
#6
sunrise:
А попробовать не судьба?

Вот именно. Проверка не займет у Вас много времени, более того, избавит от ненужных вопросов :)

wilelf
На сайте с 27.06.2005
Offline
322
#7
QMSY:

Allow: /posts.xml?tb=

Хитрость в том, что нет никаких "Allow". Этот файл может только запрещать.

Агентство контекстной рекламы НеВсем ( https://www.nevsem.ru/ ) Пишу платно статьи для Хабра. Мой профиль ( https://habr.com/ru/users/wilelf/ )
S
На сайте с 23.01.2006
Offline
160
#8
wilelf:
Хитрость в том, что нет никаких "Allow". Этот файл может только запрещать.

Хитрость в том, что в соответствии с описанием в документации, что Яндекс, что Гугл ввели понятие директивы Allow как расширение стандарта robots.txt. Так что для них то эта директива есть.

А вот для тех роботов, которые ее не понимают, ее нет. И они либо ее проигнорируют, либо обломятся. Но для владельца этого файла, насколько я понимаю, они (эти роботы) без интереса.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#9
QMSY:
Allow: /posts.xml?tb= но Disallow: /posts.xml? вот где вопрос...сожрет ли адекша линк вида сайт/папка/posts.xml?tb=

файл роботс обрабатывается (согласно спецификации) - последовательно, до появления ошибки или завершения блока.

Если гугл и яша ничего не перемудрили, то

последовательность

Allow: /posts.xml?tb=
Disallow: /posts.xml?

запретит все /posts.xml?

Если же последовательность поменять

Disallow: /posts.xml?
Allow: /posts.xml?tb=

то все будет ок...

PS Если все работает согласно спецификации

T.R.O.N добавил 11.01.2009 в 15:01

sPoul:
И они либо ее проигнорируют, либо обломятся.

они должны прекратить обработку на строке с ошибкой, приняв все рание обработанные директивы

Именно поэтому яшин Host ставится в конце блока

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
[Удален]
#10

Ну судя по названию темы он действительно хитрый :D

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий