А не о#$@ли Гугль?

12 3
InSAn
На сайте с 13.01.2003
Offline
60
1656

Вот, раскопал и офигел...

В гугле проиндексированы страницы вида:

сайт.ком/stat/число/page/

При этом в роботсе ясно написано, что:

User-agent: *

Disallow: page

...

И что с ним делать?

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)
K
На сайте с 31.01.2001
Offline
737
#1

А надо было написать от корня

Disallow: /stat

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
InSAn
На сайте с 13.01.2003
Offline
60
#2

Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:

Disallow: page

будут запрещены к индексации все страницы и директории, начинающиеся на "page"

PS:

Disallow: /stat

не катит, т.к. "stat" должен быть открыт

InSAn
На сайте с 13.01.2003
Offline
60
#3

При єтом все другие поисковики понимают прекрасно, что страницы и каталоги, начинающиеся с "page" индексировать нельзя.

В суд на Гугль подать, что ли? :)

Уже не одна компания за менее мелкие "грехи" с Гугля денег сняла :))

Artisan
На сайте с 04.03.2005
Offline
375
#4
Как писал InSAn
Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:
Disallow: page
будут запрещены к индексации все страницы и директории, начинающиеся на "page"

Ключевое слово начинающиеся,

то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.

Disallow: /stat/0/page/

Disallow: /stat/1/page/

Disallow: /stat/2/page/

Disallow: /stat/3/page/

...

Disallow: /stat/999/page/

Если Вы хотите чтобы robots.txt был поменьше то придется переделать сами пути к документам то есть сделать типа того как ниже где после завершающей косой черты будут числа.

Disallow: /stat/page/

А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
InSAn
На сайте с 13.01.2003
Offline
60
#5
Как писал Artisan


Ключевое слово начинающиеся,

Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")

Как писал Artisan
то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.

Disallow: /stat/0/page/
Disallow: /stat/1/page/
Disallow: /stat/2/page/
Disallow: /stat/3/page/

...

Disallow: /stat/999/page/

И так 13 тыс раз (на данный момент) ;)

Представляете размерчик фалика?

Как писал Artisan
А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.

Я закрыл роботсом, что бы страницы не скачивалиь роботом - т.к. их ну очень много (и постоянно изменяются) - а зачем мне лишний трафик?

InSAn
На сайте с 13.01.2003
Offline
60
#6

http://www.citforum.ru/internet/search/rbtspec.shtml

Каждая запись должна содержать строки (lines) в форме:

"<field>:<optional_space><value><optional_space>".
...
значением <value> этого поля должен являться частичный URL,
который не должен индексироваться.

Нигде нет упоминания о том, что в строке Disallow должен быть указать путь от корня.

Artisan
На сайте с 04.03.2005
Offline
375
#7
Как писал InSAn
Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")

Самое смешное во всем этом то что как в HTTP запросе как раз только от корня все и считается.

InSAn
На сайте с 13.01.2003
Offline
60
#8

А при чем здесь http-запрос?

В стандарте ясно написано, что:

Disallow: page

запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".

Но не урл (без имени хоста), начинающийся с "page".

K
На сайте с 31.01.2001
Offline
737
#9

http://www.robotstxt.org/wc/norobots.html

record contains lines of the form "<field>:<optionalspace><value><optionalspace>".

...

Disallow

...

This can be a full path, or a partial path; URL that starts with this value will not be retrieved.

В вашем случае адрес начинается со stat, но никак не с page.

Artisan
На сайте с 04.03.2005
Offline
375
#10
Как писал InSAn
А при чем здесь http-запрос?

Для ясности.

Как писал InSAn
В стандарте ясно написано, что:
Disallow: page
запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".
Но не урл (без имени хоста), начинающийся с "page".

http://www.robotstxt.org/wc/norobots.html

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

Обратите внимание на слово URL и косую черту в начале каждого пути.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий