Подскажите, Гугл всегда забивает на Disallow в роботс ?

1 234
kimberlit
На сайте с 13.03.2007
Offline
370
#31
bober:
Disallow: /categories/*
Disallow: /page/*
ничего не закрывают, чтобы закрыть эти директории, уберите звездочки:

Почему же не закрывают?

B
На сайте с 07.02.2005
Offline
161
#32
kimberlit:
Почему же не закрывают?

Флуд ради флуда продолжается, гуру?

Потому что

bober:
Сделайте в соответствии с синтаксисом Гугла
kimberlit
На сайте с 13.03.2007
Offline
370
#33
bober:
Потому что

Согласен, что криво, глупо и нелепо.

Но почему же не будет закрывать? Где в твоём любимом мануале это написано?

TM
На сайте с 28.10.2008
Offline
70
#34

---- Пока потерто. --- придумал еще один тест. потом отпишусь

t-m-p добавил 18.06.2011 в 11:37

Хотя не, все правильно у меня прописано.

ttp://*******.net/content/******** Веб Запрещено в файле robots.txt Запрещено в файле robots.txt

Сам гугль говорит об этом. но страница в индексе ив выдаче как я и говорил уже 2-ой год

Так что

чтобы закрыть эти директории, уберите звездочки:
Disallow: /categories/
Disallow: /page/
чтобы закрыть поддиректории:
Disallow: /categories*/
Сделайте в соответствии с синтаксисом Гугла, а потом здесь покажите, будут эти директории индексироваться или нет.

Это всего лишь теория. практика показывает другой результат

K
На сайте с 31.01.2001
Offline
737
#35
bober:
Строки
Disallow: /categories/*
Disallow: /page/*
ничего не закрывают, чтобы закрыть эти директории, уберите звездочки:
Disallow: /categories/
Disallow: /page/

Если бы это было написано лет 10 назад, это было бы справедливо.

Но уже много лет работает и вариант со звездочкой:

/hjshdkfjshf.html
Заблокировано по строке 3: Disallow: /h*

Впрочем, звездочки здесь не нужны, в этом я согласен.

hasugosu:
Уже пару недель, как убрал allow, закрыл все в dissalow http://sex-porn-xxx.com/robots.txt

Но гугл все равно продолжает жрать недоделанный сайт http://google.com/search?&q=site:sex...x.com&filter=0

Ваша проблема в том, что вы не хотите читать документацию на robots.txt, . Ссылки есть в FAQ раздела для новичков.

В вашем robots.txt работает только первая секция из двух строк:

User-agent: *
Host: sex-porn-xxx.com

И то бессмысленная, т.к. нет ни одной директивы Disallow

Во всех остальных блоках нет ни одной директивы User-agent:

поэтому поисковики их пропускают.

Меня удивляют люди, которые столько строчат на форумах, с пеной у рта что-то доказывают, но не читают совершенно нехитрую документацию и не пользуются простейшей проверкой в GWMT, про которую сами много кричат.

XPraptor:
Гугл понимает тег allow только для директив регулярных выражений.
Для обычного управления урлами - он не поддерживает эту директиву как и все остальные боты.

Такого бреда я от вас не ожидал.

Сейчас специально проверил. Разумеется, все работает, без всяких регулярных выражений. Пример был такой:

User-agent: *

Allow: /a

Disallow: /

Проверил URL /kjshdkfjshf.html - Заблокировано по строке 3: Disallow: /

Проверил URL /akjshdkfjshf.html - Разрешено в строке 2: Allow: /a

Все просто. И все работает.

hasugosu:
Я выложил сайт с вот таким роботсом:
User-agent: *
Allow: /$
Disallow: /*

Не знаю регулярные это выражения, или не регулярные но значить они должны следующее - индексировать только главную, не индексировать все остальное

Все правильно написали. Звездочку в Disallow лучше убрать, она там всегда и так подразумевается.

P.S. Ну и срач с бредом развели на пустом месте, ну вы даете, кошмар. kimberlit один отбивался, уважаю :).

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
B
На сайте с 07.02.2005
Offline
161
#36

Все, что нажито непосильным трудом... (с) :)

Вынужден, увы, признать свою неправоту - писал, не удосужившись проверить, на предположении, что бот игнорирует неверно написанные строки.

Теперь проверил - таки закрывается директория и все ее содержимое - хоть со звездочкой, хоть без, и даже без обратного слэша...

6ecuk
На сайте с 30.03.2011
Offline
24
#37
Сам гугль говорит об этом. но страница в индексе ив выдаче как я и говорил уже 2-ой год

Все правильно, если мы закрывает в robots.txt страницу - то Googlebot перестает на нее приходить, но в отличии от Яндекса, он автоматически не выкидывает страницу из индекса, как делает это Яндекс. Убрать ненужную страницу из индекса гугла можно двумя способами:

1. Через панель вебмастера подать ссылку на удаление.

2. В странице прописать мета-тег noarchive.

Max1muS
На сайте с 27.09.2008
Offline
127
#38
hasugosu:
Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ?

Гугл реально забивает на него, это факт

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий