Вопрос по Robots.txt

SL
На сайте с 13.04.2011
Offline
30
629

Если в файле Robots.txt мне нужно запретить к индексации файл data.xml, который лежит в корневой папке (т.е. там же где и сам robots), то написать надо

вот так:

User-agent: *
Disallow: /data.xml

User-agent: Yandex
Disallow: /data.xml
Host: www.site.ru

или так:

User-agent: *
Disallow: data.xml

User-agent: Yandex
Disallow: data.xml
Host: www.site.ru

?

iren K
На сайте с 28.12.2008
Offline
222
#1
SecondLeg:
Если в файле Robots.txt мне нужно запретить к индексации файл data.xml, который лежит в корневой папке (т.е. там же где и сам robots), то написать надо
вот так:

"вот так":

User-agent: *

Disallow: /data.xml

User-agent: Yandex

Disallow: /data.xml

Host: www.site.ru

c уважением Iren
cheredov
На сайте с 07.04.2011
Offline
125
#2
iren K:
User-agent: *
Disallow: /data.xml

User-agent: Yandex
Disallow: /data.xml
Host: www.site.ru

Кстати хоть в справке Яндекса и написано

User-agent: * # не будет использована роботами Яндекса

они ее используют. Конечно, полный бред для них дублировать все директивы.

Уберите из роботса все под "User-agent: Yandex" и посмотрите - они будут в вебмастере - "Документ запрещен в файле robots.txt"

Да и вообще поменьше верьте их справке, они врут постоянно. Верьте экспериментам.

Иван Чередов (http://ivan.cheredov.com/about/)
siv1987
На сайте с 02.04.2009
Offline
427
#3
User-agent: * # не будет использована роботами Яндекса

Не будет использована если объявлен юзер-агент яндекса, не надо читать между строк.

User-agent: *

Disallow: /cat.php

User-agent: Yandex

Disallow: /index.php

А результат эксперимента таков, что для яндекса index.php будет закрыт, а cat.php нет

K
На сайте с 31.01.2001
Offline
737
#4
cheredov:
поменьше верьте их справке, они врут постоянно. Верьте экспериментам.

cheredov, давайте от слов к делу. Приведите пример robots.txt, который работает не так, как написано в справке. Даю вам две попытки.

Сделаем сайт, будем вести логи, посмотрим за индексацией, проверим чекером на webmaster.yandex.ru, все как положено.

Если не сможете привести такой пример - пеняйте на себя.

И будьте осторожнее, вырванная строка из справки типа

User-agent: * # не будет использована роботами Яндекса

означает ваше немедленное поражение.

Ну или если не можете привести пример для изучения, можете сразу забрать свои слова обратно, скажите что погорячились или не разобрались в том, что написано в help.yandex.ru .

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
cheredov
На сайте с 07.04.2011
Offline
125
#5

cheredov добавил 01.09.2011 в 20:51

Kost:
можете сразу забрать свои слова обратно, скажите что погорячились или не разобрались в том, что написано в help.yandex.ru .
В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Забираю свои слова обратно. Я погорячился и не разобрался, что написано в справке Яндекса. 😒 Не пинайте больно.

Насчет того, что справка Яндекса врет, остаюсь при своем мнении, примеры если кому то нужны приведу. Насчет дублирования директив для User-agent: * и User-agent: Yandex согласны?

богоносец
На сайте с 30.01.2007
Offline
771
#6

Если у кого есть примеры XML-документов (именно XML c соотв. HTTP-заголовками, а не файлы.xml) в индексе ПС, то покажите, можно в ЛС... последнее время в Я остались единичные исчезающие случаи... в G больше.

cheredov:
Насчет того, что справка Яндекса врет, остаюсь при своем мнении

Ну про XML ТП врёт почти прямо... говорят: не индексим, а иконка зачем?

K
На сайте с 31.01.2001
Offline
737
#7

cheredov, OK.

А жаль, я бы посмотрел на пример, на эксперимент, попробовали бы добиться повторяемости.

Полное дублирование блоков для Яндекса - да, согласен, оно обычно ни к чему. Директиву Host , как оказалось, можно писать вообще отдельно.

Marinka
На сайте с 21.04.2007
Offline
125
#8
Kost:
Директиву Host , как оказалось, можно писать вообще отдельно.

Вот уж я не знала. В любом месте роботса чтоли?

или это имеется ввиду:

User-agent:Yandex

Disallow: /

User-agent:*

Disallow: /

Host: www.site.ru

?

SeoHammer (http://www.seohammer.ru/?partnerid=123870) - продвижение сайтов в ТОП. Попробуй нарубить в Kappusta.Ru (http://kappusta.ru/?r=B0CC924593324D4A99EF8016BF16656E)! Поисковый и коммерческий аудиты, цена по договоренности.
K
На сайте с 31.01.2001
Offline
737
#9
директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

но лучше писать непосредственно после всех Disallow.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий