Не понимаю про robots - просветите пожалуйста.

12
UralM
На сайте с 07.08.2006
Offline
188
1352

Есть такой роботс (см.ниже), но яндекс индексирует. Где у меня ошибка?

User-Agent: Yandex

Host: www.domen.ru

User-agent: *

Disallow: /

Disallow: /ru/

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /tag/*

Disallow: /blog/*

Disallow: /feed/*

Sitemap: /sitemap.html

kimberlit
На сайте с 13.03.2007
Offline
370
#1
UralM:
но яндекс индексирует

Чего индексирует?

Вроде взрослый человек.

http://help.yandex.ru/webmaster/?id=996567

D
На сайте с 18.02.2012
Offline
6
#2

Первая же строка (disallow: /) говорит роботу (в данном случае всем поисковым роботам), что запрещена индексация ВСЕГО сайта, включая главную страницу.

kimberlit
На сайте с 13.03.2007
Offline
370
#3
Delvin:
Первая же строка (disallow: /) говорит роботу (в данном случае всем поисковым роботам), что запрещена индексация ВСЕГО сайта, включая главную страницу.

И Яндексу что ли?

florange
На сайте с 27.02.2012
Offline
10
#4

Вот к примеру валидный robots.txt для всех роботов:

User-agent: *

Disallow: /ru/

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /tag/*

Disallow: /blog/*

Disallow: /feed/*

Sitemap: http://www.domen.ru/sitemap.xml

Host: www.domen.ru

D
На сайте с 18.02.2012
Offline
6
#5
kimberlit:
И Яндексу что ли?

Ну, учитывая, что они не так давно переработали правила обработки роботс.тхт, то нет. Он, по идеи, должен смотреть только на те строки, которые указаны именно для него... Но мое мнение: чем файл проще, тем ниже вероятность того, что поисковый робот воспримет что-то неверно, посему уменя он создан для всех роботов сразу. Директива с указанием хоста гугл вообще не беспокоит.

UralM
На сайте с 07.08.2006
Offline
188
#6
kimberlit:
Чего индексирует?


Вроде взрослый человек.
http://help.yandex.ru/webmaster/?id=996567

Но вроде как есть и такая директива:

User-agent: *

Disallow: /

D
На сайте с 18.02.2012
Offline
6
#7
UralM:
Но вроде как есть и такая директива:

User-agent: *
Disallow: /

Мой последний пост перечитай.

а вот и вырезка из справки, ссылку на которую дали выше.

User-agent: *

Disallow: /
User-agent: Yandex
Allow: /
# без расширений из-за отсутствия перевода строки,
# 'User-agent: Yandex' было бы проигнорировано и
# результатом стало бы 'Disallow: /', но робот Яндекса
# выделяет записи по наличию в строке 'User-agent:',
# результат для робота Яндекса в данном случае 'Allow: /'


---------- Добавлено 09.04.2012 в 09:36 ----------

Кстати, Яндекс ведь дает все инструменты для проверки роботс. тхт... Я вот не поленился и решил проверить Ваш роботс.тхт. и вот что у меня получилось.

robots.txt такого вида:

User-Agent: Yandex

Host: www.domen.ru

User-agent: *
Disallow: /
Disallow: /ru/
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /tag/*
Disallow: /blog/*
Disallow: /feed/*
Sitemap: /sitemap.html

Дает следующие ответы на доступ:

http://www.domen.ru/	разрешен	

http://www.domen.ru/ru/ разрешен
http://www.domen.ru/administrator/ разрешен
http://www.domen.ru/cache/ разрешен
http://www.domen.ru/components/ разрешен
http://www.domen.ru/images/ разрешен
http://www.domen.ru/includes/ разрешен
http://www.domen.ru/installation/ разрешен
http://www.domen.ru/language/ разрешен

Если robots.txt такой:

User-Agent: Yandex

Host: www.domen.ru
Disallow: /

User-agent: *
Disallow: /
Disallow: /ru/
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /tag/*
Disallow: /blog/*
Disallow: /feed/*
Sitemap: /sitemap.html

ответ такой:

http://www.domen.ru/	запрещен правилом /	

http://www.domen.ru/ru/ запрещен правилом /
http://www.domen.ru/administrator/ запрещен правилом /
http://www.domen.ru/cache/ запрещен правилом /
http://www.domen.ru/components/ запрещен правилом /
http://www.domen.ru/images/ запрещен правилом /
http://www.domen.ru/includes/ запрещен правилом /
http://www.domen.ru/installation/ запрещен правилом /
http://www.domen.ru/language/ запрещен правилом /

Фантастика, правда? =)

vandamme
На сайте с 30.11.2008
Offline
675
#8

робот яндекса прочитал первые 2 строки

User-Agent: Yandex

Host: domen.ru

и дальше не читает, так как там начинается блок для других роботов

надо было либо один блок со звездочкой делать, либо 2 блока с полными инструкциями

UralM
На сайте с 07.08.2006
Offline
188
#9

ок, спасибо, понял

S
На сайте с 14.06.2011
Offline
28
#10
UralM:
ок, спасибо, понял

порекомендую полезную статью по роботсу - http://joomlaforum.ru/index.php/topic,193446.0.html

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий