А не о#$@ли Гугль?

60

InSAn

15 мая 2005, 14:53

1666

Вот, раскопал и офигел...

В гугле проиндексированы страницы вида:

сайт.ком/stat/число/page/

При этом в роботсе ясно написано, что:

User-agent: *

Disallow: page

...

И что с ним делать?

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)

K

737

Kost

15 мая 2005, 14:56

#1

А надо было написать от корня

Disallow: /stat

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

60

InSAn

15 мая 2005, 15:43

#2

Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:

Disallow: page

будут запрещены к индексации все страницы и директории, начинающиеся на "page"

PS:

Disallow: /stat

не катит, т.к. "stat" должен быть открыт

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

60

InSAn

15 мая 2005, 15:45

#3

При єтом все другие поисковики понимают прекрасно, что страницы и каталоги, начинающиеся с "page" индексировать нельзя.

В суд на Гугль подать, что ли? :)

Уже не одна компания за менее мелкие "грехи" с Гугля денег сняла :))

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

381

Artisan

15 мая 2005, 15:57

#4

Как писал InSAn
Чмтаем внимательно описание поисковых стандартов для роботс.тхт, в котором сказано, что в случае:
Disallow: page
будут запрещены к индексации все страницы и директории, начинающиеся на "page"

Ключевое слово начинающиеся,

то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.

Disallow: /stat/0/page/

Disallow: /stat/1/page/

Disallow: /stat/2/page/

Disallow: /stat/3/page/

...

Disallow: /stat/999/page/

Если Вы хотите чтобы robots.txt был поменьше то придется переделать сами пути к документам то есть сделать типа того как ниже где после завершающей косой черты будут числа.

Disallow: /stat/page/

А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

60

InSAn

15 мая 2005, 16:08

#5

Как писал Artisan

Ключевое слово начинающиеся,

Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")

Как писал Artisan
то есть чтобы закрыть то что надо придется явно перечислять все числа потому что согласно стандарту никаких регулярных выражений робот не поймет.

Disallow: /stat/0/page/
Disallow: /stat/1/page/
Disallow: /stat/2/page/
Disallow: /stat/3/page/

...

Disallow: /stat/999/page/

И так 13 тыс раз (на данный момент) ;)

Представляете размерчик фалика?

Как писал Artisan
А еще проще добавить в те документы которые не надо индексировать META метки NOINDEX и другие из этого набора.

Я закрыл роботсом, что бы страницы не скачивалиь роботом - т.к. их ну очень много (и постоянно изменяются) - а зачем мне лишний трафик?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

60

InSAn

15 мая 2005, 16:21

#6

http://www.citforum.ru/internet/search/rbtspec.shtml

Каждая запись должна содержать строки (lines) в форме:

"<field>:<optional_space><value><optional_space>".

...

значением <value> этого поля должен являться частичный URL,

который не должен индексироваться.

Нигде нет упоминания о том, что в строке Disallow должен быть указать путь от корня.

381

Artisan

15 мая 2005, 16:23

#7

Как писал InSAn
Начинающееся НЕ ОТ КОРНЯ, если нет слеша ("/")

Самое смешное во всем этом то что как в HTTP запросе как раз только от корня все и считается.

60

InSAn

15 мая 2005, 16:33

#8

А при чем здесь http-запрос?

В стандарте ясно написано, что:

Disallow: page

запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".

Но не урл (без имени хоста), начинающийся с "page".

K

737

Kost

15 мая 2005, 16:36

#9

http://www.robotstxt.org/wc/norobots.html

record contains lines of the form "<field>:<optionalspace><value><optionalspace>".

...

Disallow

...

This can be a full path, or a partial path; URL that starts with this value will not be retrieved.

В вашем случае адрес начинается со stat, но никак не с page.

Optimization 2010: круглый стол RIW 2010: «Автоматизация анализа Региональная оптимизация с помощью

381

Artisan

15 мая 2005, 16:38

#10

Как писал InSAn
А при чем здесь http-запрос?

Для ясности.

Как писал InSAn
В стандарте ясно написано, что:
Disallow: page
запрещает индексировать как страницы, так и каталоги, начинающиеся с "page".
Но не урл (без имени хоста), начинающийся с "page".

http://www.robotstxt.org/wc/norobots.html

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

Обратите внимание на слово URL и косую черту в начале каждого пути.

Что делать, если ваша email-рассылка попала в спам

VK приобрела 70% в структуре компании-разработчика red_mad_robot