К сожалению, есть такая бага.
Polite Moose, хотя я и пообещал не давать комментариев, я их дам.
Количество вариантов поведения зеркальщика большое, оно зависит от разных обстоятельств.
Скажем, то, о чем написал LiM, тоже иногда бывает, но относительно редко.
Maxime, тут есть одна небольшая проблемка:
если робот будет определять зеркальность, основываясь только на директива host в robots.txt, без проверки, то это будет еще один способ для вебмастера обманывать робота.
К сожалению, как этого избежать, пока не понятно.
На самом деле, зеркальщик не знает слова /norobot/, просто алгоритм у него такой, что не зайдет он туда.
euhenio,
отлуп за запрос к директории /norobot/ на Яндексе.
Будьте уверены, "зеркальщик" работает так, что "отлуп" от www.yandex.ru он точно не получит (тему раскрывать не буду).
Miha Kuzmin, Вы являетесь администратором своего сайта, и если Вам не нравится "зеркальщик", - не пускайте его.
wolf,
> Сменить бы вам имена всем агентам, которых вы за роботов не держите.
Думаю, Вы преувеличиваете масштабы трагедии. Пока что эта проблема не вышла за пределы обсуждения на этом форуме.
LiM, полностью редиректящий сайт не может быть выбран главным зеркалом.
wolf, новое обсуждение
> Невежливых агентов
будет проходить без моего участия.
Могу лишь заметить, что про "отлупы" за 10-15 страниц никогда раньше я не слышал.
wolf, "зеркальщик" действительно проверяет полностью запрещенные хосты, см. выше.
Специально добавлю, что он берет не более 10-15 документов с хоста за проверку, и ничего не индексирует. Кроме того, он не является сам по себе "пауком", так что, в силу служебной необходимости, он вынужден работать с robots.txt несколько не так, как остальные роботы.
> НЕ ДОЛЖНЫ ИНДЕКСИРОВАТЬСЯ ВООБЩЕ
Разумеется.
> (в том числе и зеркальщик)
Зеркальщик - это такой квазиробот, он берет с сайта всего несколько страниц и ничего не индексирует. robots.txt интерпретируется им по-своему, т.е. не как запрет для него заходить на этот сайт, а как пожелание не делать этот сайт главным зеркалом (по понятным причинам).
> Достаточно ли дерективы host
Нет, на данный момент, - не достаточно. Содержимое доменов должно полностью совпадать (если все url'ы домена редиректят на идентичные url'ы другого, т.е. есть полный редирект, это тоже считается совпадением).
> Происходит ли реальная склейка ... Будут ли...
Происходит, будут. Именно это, кстати, и является единственным аргументом против того, чтобы "верить" директиве host без проверки.
> Что мне лучше сделать, что бы не мучить себя и ваших роботов?
Список полезных советов сейчас выдает служба addurl при попытке добавить неглавное зеркало.
> Может проще всего письмо на addurl написать
С вероятностью 99.9% "раз и навсегда" Вам не сделают.