AiK

AiK
Рейтинг
257
Регистрация
27.10.2000
Должность
SEO consultant
Интересы
Astronomy

Есть более понятный пример.

Лавка регистрирует два домена: фирма.ру и фирма.ком и желает что бы главным был второй. Яндекс же по умолчанию выбирает первый.

AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.

Так уже лучше :)

Отцы! Тут ключевое слово 1 (один) robots.txt на все домены.

Если у конкурента robots.txt другой, то как бы это кому-то не хотелось - это уже не зеркало :)

А вот документацию скорее всего еще придется подправлять.

И это правильно :). Полагаю, что для сегодняшней ночи достаточно :)

Он делает robots.txt уже двумерным

Ваш вариант - вообще многомерный :)

Я заблуждался выше по тексту почти везде искренне :)

Итак, наличие директивы

User-Agent: Yandex

Host: www.myhost.ru

равносильно наличию robots.txt на любом другом хосте, являющемся зеркалом файла robots.txt с записью

User-Agent: Yandex

Disallow: /

Вроде не наврал? :)

Теперь интересный момент: я по каким-то причинам захотел закрыть

главное зеркало от Яндекса и сделал такую запись:

User-Agent: Yandex

Disallow: /

Host: www.myhost.ru

Т.е. забыл удалить ненужную теперь директиву Host.

Внимание, вопрос: как поведёт себя Яндекс? Мне почему-то кажется, что продолжит как ни в чём не бывало индексировать www.myhost.ru.

А теперь совсем интересно, я уже приводил пример выше:

я "забыл", что директиву host знает только Яндекс и записал по аналогии с webmaster2.html#virtual:

User-Agent: *

Disallow: /

Host: www.myhost.ru

Имея в виду, что я запретил к индексации всё, кроме www.myhost.ru

В итоге, я запретил к индексации всё для всех, и только в Яндексе разрешил www.myhost.ru

Полагаю, это обстоятельство должно быть подробно освещено в руководстве Яндекса, не зависимо от того, заблуждаюсь я в своих выводах в данный момент или нет :)

Она же тоже запрещает

Ок. Объясняю на пальцах:

Disallow: /forum

переводится на русский как "не индексировать /forum"

Директива Host: www.glavnoye-zerkalo.ru переводится как

"не индексировать не www.glavnoye-zerkalo.ru"

по правилам логики это равносильно

"индексировать www.glavnoye-zerkalo.ru"

Отсюда и путаница. Я понимаю, что так запись компактнее, но читать её сложнее. Поэтому юзабельнее будет писать:

User-Agent:Yandex

Disallow: /

Host: zerkalo1.ru

Host: zerkalo2.ru

в смысле не индексировать zerkalo1 и zerkalo2.

Впрочем саппортом в основном вам заниматься и придётся, так что можете оставить всё как есть :)

AiK, Вы что-то не понимаете.

Кстати, знаете почему непонятки происходят? Потому что в протоколе всё запрещается, а деректива host, наоборот разрешает.

AiK, Вы что-то не понимаете.

Host: www.mysite.spb.ru
запрещает всех, кроме www.mysite.spb.ru.

Да? Точно тогда всё криво :) А именно это напишет неискушенный "ваятель html", желая сделать mysite.spb.ru основным зеркалом. А зачем на зеркале закрывать отдельные разделы - я не понимаю.

Что-то я не заметил

http://www.google.com/webmasters/3.html#B10

I don't want Google to index non-HTML file types on my site.

To disallow a specific file type,simply modify the Disallow command in your robots.txt file. This works for all of the types of files Googlebot crawls,including HTML, GIFs and .docs. For example, to disallow Microsoft Word files with the ".doc" extension, you would add the following lines to your robots.txt file:

User-agent: Googlebot
Disallow: /*.doc$

Получается, что и Яндекс и Апорт извлекли адреса страниц из данного списка, не смотря на то, что это скрипт.

Полагаю, что не обязательно была разборка скрипта.

Значит, поняли.

Спасибо за идею :D

Согласно стандарту - должен пропустить.

Ок. Допустим, я хочу запретить только www.mysite.spb.ru (Яндекс правда итак с этим разберётся, но не суть).

Что будет, если я напишу, так как Вы и предлагали?:


User-Agent: *
Disallow: /
Host: www.mysite.spb.ru

Правильно, я закрою сайт mysite.spb.ru (и www.mysite.spb.ru, коль скоро он возвращает тот же robots.txt) для всех роботов, кроме робота Яндекса. Поэтому предлагаю во избежание путаницы всё же на странице

http://www.yandex.ru/info/webmaster2.html#virtual заменить * на Yandex.

Рекомендация для тех, кто решит воспользоваться Яндексовским расширением: размещайте дерективы для Яндекса в самом конце robots.txt во избежание неприятностей с роботами других поисковиков.

Повторюсь, об изменении трактовки "знакомых" директив не может быть и речи. Это более обсуждать не стоит.

Непонятно почему. Или Яндекс всегда идёт своим путём? Гугль же ввёл звёздочку и особо не перживает о том, что какой-то робот эту звёздочку не поймёт - если директива относится только к конкретному поисковику, то остальных это и не касается.

Оно нарушает стандарт robots.txt.

Как и Ваше :)

Неправильно оформленную строку парсер пропустит, а вот пропустит ли он дополнительную строку _внутри_ - не уверен.

Сентенцию насчёт парковки не понял. Видимо из-за того, что у меня домен виртуальный :)

Всего: 3256