Предлагаемое расширение стандарта robots.txt

AiK
На сайте с 27.10.2000
Offline
257
AiK
#31

Есть более понятный пример.

Лавка регистрирует два домена: фирма.ру и фирма.ком и желает что бы главным был второй. Яндекс же по умолчанию выбирает первый.

AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.

Так уже лучше :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#32

melkov, iseg, вы бы роботу имя присвоили, а то

lwp-trivial как-то не солидно :)

M
На сайте с 25.01.2001
Offline
57
#33

AiK, lwp-trivial - это Вы о чем?

В исходниках Яндекса такой строчки вроде нет... :)

Кстати, на данный момент уже есть кое-какая статистика:

1 пользователь правильно понял текст про "Host:" в webmaster2.html

0 пользователей - неправильно.

:)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#34
AiK, lwp-trivial - это Вы о чем?

C glagol.yandex.ru ходит за robots.txt зверь с упомянутым названием.

Подсказать откуда взялось это название? :)

M
На сайте с 25.01.2001
Offline
57
#35

AiK, кажется, понятно.

Не обращайте внимания :)

M
На сайте с 05.06.2001
Offline
23
#36

Я до конца не понял как должна интерпретироваться эта директива

То ли она указывает какой из алиасов главный (что в этом случае делать роботу, если по его данным некоторые сайты на этом айпи это не алиасы, а разные по содержанию сайты?), то ли что все остальные хосты это алиасы (и робот обязан считать что это так, независимо от имеющегося у него собственного мнения на этот счет), то ли что все остальные хосты на этом айпи не надо индексировать (то есть алиасы строго говоря вообще ни при чем и теоретически ничто не мешает запретить этой директивой к индексации разные сайты на одном айпи -хоть это и нелогично делать таким способом)

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#37

misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное. Что, во-первых, означает, что всю работу по распознанию зеркал робот должен сделать сам, а, во-вторых, это уже директива не роботу, а модулю, который обрабатывает базу.

M
На сайте с 25.01.2001
Offline
57
#38

misha: > Я до конца не понял как должна интерпретироваться эта директива

Gray: > misha, как я понял, эта директива должна указать роботу, что из имеющихся трех зеркал одно - главное.

Это не совсем так. Точнее, это должно быть следствием формального действия 'Host': запрещение индексации сайта в случае, если 'Host' имеется в robots.txt, но этот сайт там не упомянут. Не важно, зеркало или нет, разный IP или одинаковый. Т.е. Host воспринимается формально, без обязательной привязки к вопросу о зеркалах.

Во время парсирования robots.txt надо знать ровно 1 дополнительный параметр: имя хоста с номером порта. Сейчас Host может располагаться там же (и только там), где и Disallow (может быть, это, конечно, и не совсем правильно).

Для каждой корректной директивы Host в каждой записи сравниваем ее параметр с нашим хостом/портом:


badhost = stricmp(Host, host) || Port != port;
if (!badhost) goodhost = true;

А в конце записи, если (badhost && !goodhost), просто добавляем Disallow: /.

В том, что написано на webmaster2.html, упоминания про более чем одну директиву Host были аккуратно вырезаны, но в плане реализации это было бы слишком серьезным ограничением.

Запрет индексации не позволяет обманывать поисковую систему в случае, если вдруг будет решено склеивать индекс цитирования, например, без проверки на фактическую зеркальность, основываясь только на директиве 'host'.

Ну а в случае явной проверки на зеркала Host - это просто предложение проверить зеркальность. Опять же, IP, альясы и пр. тут ни при чем. Если кто-то держит два идентичных сайта на boom.ru и narod.ru, у него вполне может быть одинаковый robots.txt с директивой Host.

M
На сайте с 05.06.2001
Offline
23
#39

Спасибо, теперь понятно :)

M
На сайте с 25.01.2001
Offline
57
#40

Поиск по w3.org. Интересные ссылки.

Robots - may 1996

http://www.w3.org/Search/9605-Indexing-Workshop/Papers/Frumkin@Excite.html :)

- список того, чего не хватало в robots.txt

Robots - june 1996

http://www.kollar.com/robots.html (в конце документа)

<META NAME="URL" CONTENT="absolute url">

На этом все и закончилось, фактически, в 1996 году.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий