Индексер Яндекса пришел и дергает robtos.txt....

SI
На сайте с 01.04.2003
Offline
25
1172

... уже пару дней.

Сам контент пока не дергает.

Он его будет дергать если роботс ему это не запрещает? Через какое время?

Проблема волнует потому что игрался недавно с языковыми версиями сайта и по ошибке яндекс получал английскую версию. В итоге из индекса он меня вынес. Теперь смотрю добавляет обратно, стартовая страница уже есть, домены третьего уровня пока нет но по ним ходит робот и дергает роботс только.

SI
На сайте с 01.04.2003
Offline
25
#1

а вот такой у меня роботс, запрещаю всяких бесполезных пауков.

User-agent: *

Disallow:

User-agent: ia_archiver

Disallow: /

User-agent: TurnitinBot

Disallow: /

User-agent: Zyborg

Disallow: /

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Первая директива вообще способна запретить все. Никогда не пробовал оставлять Disallow пустой, но это вполне можно принять за запрет индексировать весь сайт. Зачем оно надо?

C
На сайте с 19.09.2001
Offline
120
#3
Первая директива вообще способна запретить все. Никогда не пробовал оставлять Disallow пустой, но это вполне можно принять за запрет индексировать весь сайт. Зачем оно надо?

Пустая директива Disallow разрешает индексирование всего. Об этом говорится в стандарте.

Для запрета индексирования всего надо ставить слеш:

Disallow: /

В данном конкретном случае первые две строки можно опустить.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4
Об этом говорится в стандарте.

Пардон, стандарта не помню.

А смысла такой директивы и подавно не понимаю. Robots.txt запрещает индексирование обычно, что не запрещено, то, соответственно, разрешено.

SI
На сайте с 01.04.2003
Offline
25
#5

Зачем первые строки сам не знаю, взял их со страницы какого-то робота бесполезного, так они советовали отлучить их робота.

В таком виде роботс у меня уже месяца два один на все виртуальники на машине. Как минимум Гугл отлично индексирует все.

Собственно, на мой вопрос так никто и не ответил.

Если Яндекс находит по ссылке новый для него домен и спустя некоторое время дергает с него роботс и только его, то что это может значить? Придет ли он за контентом?

C
На сайте с 19.09.2001
Offline
120
#6
Пардон, стандарта не помню.

Вот пример для этого случая:

To allow all robots complete access

User-agent: *

Disallow:

Or create an empty "/robots.txt" file.

А смысла такой директивы и подавно не понимаю.

Приведу простой пример: необходимо всем роботам запретить индексирование, а роботу рамблера -- разрешить. Выглядит как-то так:

User-agent: StackRambler

Disallow:

User-agent: *

Disallow: /

[Удален]
#7
Если Яндекс находит по ссылке новый для него домен и спустя некоторое время дергает с него роботс и только его, то что это может значить? Придет ли он за контентом?

Обязательно! :) Со временем...

Sir[MAI]
На сайте с 22.10.2002
Offline
147
#8

Cherny, а если нужно всем запретить, например, только 1 URL?

Просто

User-agent: *

Disallow: /url.htm

? Я прав?

С уважением, Сергей
C
На сайте с 19.09.2001
Offline
120
#9
Cherny, а если нужно всем запретить, например, только 1 URL?
Просто
User-agent: *
Disallow: /url.htm

? Я прав?

Прав.

M
На сайте с 25.01.2001
Offline
57
#10

ShamoIdol, Cherny, напоминаю, что записи

a) начинаются с user-agent'ов;

b) разделяются пустой строкой;

c) незнакомые директивы в неправильном месте игнорируются.

Поэтому:

- пример ShamoIdol говорит disallow: / всем роботам.

- пример (второй) Cherny говорит disallow: / Рамблеру.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий