Запрет индексации не позволяет обманывать поисковую систему, если вдруг решено склеивать индекс цитирования - Поисковые технологии

Предлагаемое расширение стандарта robots.txt

melkov · 2026-07-01T11:07:43.0000000Z

Сейчас в отделе поисковых систем активно обсуждается небольшое расширение стандарта robots.txt, связанное с зеркалами. Суть состоит в появлении еще одного поля - Host, в котором указывается основное зеркало. Это расширение уже добавлено в наш help: http://www.yandex.ru/info/webmaster2.html#virtual Что уважаемый All думает по этому поводу? Для затравки предлагаю свою короткую переписку с Martijn Koster.

257

AiK

15 января 2003, 14:59

#31

Есть более понятный пример.

Лавка регистрирует два домена: фирма.ру и фирма.ком и желает что бы главным был второй. Яндекс же по умолчанию выбирает первый.

AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.

Так уже лучше :)

257

AiK

16 января 2003, 00:03

#32

melkov, iseg, вы бы роботу имя присвоили, а то

lwp-trivial как-то не солидно :)

M

57

melkov

16 января 2003, 00:48

#33

AiK, lwp-trivial - это Вы о чем?

В исходниках Яндекса такой строчки вроде нет... :)

Кстати, на данный момент уже есть кое-какая статистика:

1 пользователь правильно понял текст про "Host:" в webmaster2.html

0 пользователей - неправильно.

:)

Разъяснение правил форума, ответы Сайт всё ниже в Почти все страницы на

257

AiK

16 января 2003, 00:54

#34

AiK, lwp-trivial - это Вы о чем?

C glagol.yandex.ru ходит за robots.txt зверь с упомянутым названием.

Подсказать откуда взялось это название? :)

M

57

melkov

16 января 2003, 01:02

#35

AiK, кажется, понятно.

Не обращайте внимания :)

M

23

misha

16 января 2003, 06:22

#36

Я до конца не понял как должна интерпретироваться эта директива

То ли она указывает какой из алиасов главный (что в этом случае делать роботу, если по его данным некоторые сайты на этом айпи это не алиасы, а разные по содержанию сайты?), то ли что все остальные хосты это алиасы (и робот обязан считать что это так, независимо от имеющегося у него собственного мнения на этот счет), то ли что все остальные хосты на этом айпи не надо индексировать (то есть алиасы строго говоря вообще ни при чем и теоретически ничто не мешает запретить этой директивой к индексации разные сайты на одном айпи -хоть это и нелогично делать таким способом)

482

Sergey Petrenko

16 января 2003, 07:40

#37

misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное. Что, во-первых, означает, что всю работу по распознанию зеркал робот должен сделать сам, а, во-вторых, это уже директива не роботу, а модулю, который обрабатывает базу.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

57

melkov

16 января 2003, 15:53

#38

misha: > Я до конца не понял как должна интерпретироваться эта директива

Gray: > misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное.

Это не совсем так. Точнее, это должно быть следствием формального действия 'Host': запрещение индексации сайта в случае, если 'Host' имеется в robots.txt, но этот сайт там не упомянут. Не важно, зеркало или нет, разный IP или одинаковый. Т.е. Host воспринимается формально, без обязательной привязки к вопросу о зеркалах.

Во время парсирования robots.txt надо знать ровно 1 дополнительный параметр: имя хоста с номером порта. Сейчас Host может располагаться там же (и только там), где и Disallow (может быть, это, конечно, и не совсем правильно).

Для каждой корректной директивы Host в каждой записи сравниваем ее параметр с нашим хостом/портом:


badhost = stricmp(Host, host) || Port != port;

if (!badhost) goodhost = true;

А в конце записи, если (badhost && !goodhost), просто добавляем Disallow: /.

В том, что написано на webmaster2.html, упоминания про более чем одну директиву Host были аккуратно вырезаны, но в плане реализации это было бы слишком серьезным ограничением.

Запрет индексации не позволяет обманывать поисковую систему в случае, если вдруг будет решено склеивать индекс цитирования, например, без проверки на фактическую зеркальность, основываясь только на директиве 'host'.

Ну а в случае явной проверки на зеркала Host - это просто предложение проверить зеркальность. Опять же, IP, альясы и пр. тут ни при чем. Если кто-то держит два идентичных сайта на boom.ru и narod.ru, у него вполне может быть одинаковый robots.txt с директивой Host.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

23

misha

17 января 2003, 23:47

#39

Спасибо, теперь понятно :)

M

57

melkov

18 января 2003, 03:39

#40

Поиск по w3.org. Интересные ссылки.

Robots - may 1996

http://www.w3.org/Search/9605-Indexing-Workshop/Papers/Frumkin@Excite.html :)

- список того, чего не хватало в robots.txt

Robots - june 1996

http://www.kollar.com/robots.html (в конце документа)

<META NAME="URL" CONTENT="absolute url">

На этом все и закончилось, фактически, в 1996 году.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Предлагаемое расширение стандарта robots.txt