Индексер Яндекса пришел и дергает robtos.txt....

25

ShamoIdol

1 апреля 2003, 17:23

1172

... уже пару дней.

Сам контент пока не дергает.

Он его будет дергать если роботс ему это не запрещает? Через какое время?

Проблема волнует потому что игрался недавно с языковыми версиями сайта и по ошибке яндекс получал английскую версию. В итоге из индекса он меня вынес. Теперь смотрю добавляет обратно, стартовая страница уже есть, домены третьего уровня пока нет но по ним ходит робот и дергает роботс только.

SI

25

ShamoIdol

1 апреля 2003, 17:25

#1

а вот такой у меня роботс, запрещаю всяких бесполезных пауков.

User-agent: *

Disallow:

User-agent: ia_archiver

Disallow: /

User-agent: TurnitinBot

Disallow: /

User-agent: Zyborg

Disallow: /

482

Sergey Petrenko

1 апреля 2003, 17:47

#2

Первая директива вообще способна запретить все. Никогда не пробовал оставлять Disallow пустой, но это вполне можно принять за запрет индексировать весь сайт. Зачем оно надо?

C

120

Cherny

1 апреля 2003, 21:05

#3

Первая директива вообще способна запретить все. Никогда не пробовал оставлять Disallow пустой, но это вполне можно принять за запрет индексировать весь сайт. Зачем оно надо?

Пустая директива Disallow разрешает индексирование всего. Об этом говорится в стандарте.

Для запрета индексирования всего надо ставить слеш:

Disallow: /

В данном конкретном случае первые две строки можно опустить.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

482

Sergey Petrenko

1 апреля 2003, 21:09

#4

Об этом говорится в стандарте.

Пардон, стандарта не помню.

А смысла такой директивы и подавно не понимаю. Robots.txt запрещает индексирование обычно, что не запрещено, то, соответственно, разрешено.

SI

25

ShamoIdol

2 апреля 2003, 07:20

#5

Зачем первые строки сам не знаю, взял их со страницы какого-то робота бесполезного, так они советовали отлучить их робота.

В таком виде роботс у меня уже месяца два один на все виртуальники на машине. Как минимум Гугл отлично индексирует все.

Собственно, на мой вопрос так никто и не ответил.

Если Яндекс находит по ссылке новый для него домен и спустя некоторое время дергает с него роботс и только его, то что это может значить? Придет ли он за контентом?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

C

120

Cherny

2 апреля 2003, 07:27

#6

Пардон, стандарта не помню.

Вот пример для этого случая:

To allow all robots complete access

User-agent: *

Disallow:

Or create an empty "/robots.txt" file.

А смысла такой директивы и подавно не понимаю.

Приведу простой пример: необходимо всем роботам запретить индексирование, а роботу рамблера -- разрешить. Выглядит как-то так:

User-agent: StackRambler

Disallow:

User-agent: *

Disallow: /

[Удален]

2 апреля 2003, 07:38

#7

Если Яндекс находит по ссылке новый для него домен и спустя некоторое время дергает с него роботс и только его, то что это может значить? Придет ли он за контентом?

Обязательно! :) Со временем...

147

Sir[MAI]

2 апреля 2003, 12:38

#8

Cherny, а если нужно всем запретить, например, только 1 URL?

Просто

User-agent: *

Disallow: /url.htm

? Я прав?

С уважением, Сергей

C

120

Cherny

2 апреля 2003, 13:45

#9

Cherny, а если нужно всем запретить, например, только 1 URL?
Просто
User-agent: *
Disallow: /url.htm

? Я прав?

Прав.

M

57

melkov

3 апреля 2003, 00:52

#10

ShamoIdol, Cherny, напоминаю, что записи

a) начинаются с user-agent'ов;

b) разделяются пустой строкой;

c) незнакомые директивы в неправильном месте игнорируются.

Поэтому:

- пример ShamoIdol говорит disallow: / всем роботам.

- пример (второй) Cherny говорит disallow: / Рамблеру.

eTarget 2011:Панельная дискуссия «Стратегия UXUkraine 2011: доклад Дэйва Отчет о конференции User

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта