Предлагаемое расширение стандарта robots.txt

Polite Moose
На сайте с 22.04.2002
Offline
85
#41

Хочу снова поднять данную тему и получить ряд разъяснений.

на странице http://www.yandex.ru/info/webmaster2.html#robots есть следующий текст:

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host).

то есть, другими словами, все сайты выдающие данный robots.txt и имеющие доменное имя отличное от указанного в дерективе host: НЕ ДОЛЖНЫ ИНДЕКСИРОВАТЬСЯ ВООБЩЕ!

Соответственно по ним не должны ходить роботы (в том числе и зеркальщик), и не может быть произведена "склейка". Соответственно все ссылки ведущие на данные домены должны уходить "в пустоту".

Вопрос №1 : Происходит ли реальная склейка и что происходит с *ИЦами и пр. попадающим на внутренние страницы неосновного домена. Будут ли эти внутренние страницы прямо проассоциированы с соответствующими страницами на главном домене.

Вопрос №2 : Я купил новое доменное имя, гораздо более подходящее, чем используемое ранее, и выдаваемое как главное зеркало. Так же, есть еще 4 доменных имени по которым выдается идентичное содержимое. Понятно, что все внешние ссылки ведут на старое_доменное_имя, но я бы предпочел в выдаче видеть новое. Достаточно ли дерективы host или лучше с помощью тега base сделать все ссылки на страницах "псевдоабсолютными" и ведущими на новое_главное_зеркало?

В данный момент, Яндекс считает главным зеркалом то один, то другой домен. При попытке добавить новый_домен, следует ответ, что главным является старый_домен, но при запросе известных страниц сайта выдаются страницы вида новый_домен/страница. На прошлой неделе, в каталоге яндекса стал выдаваться (без моего участия) новый_домен, но сегодня опять старый_домен. Что мне лучше сделать, что бы не мучить себя и ваших роботов? :)

Удачи, доброго пива (http://www.fifth-ocean.ru/) и настроения! Релевантность определяется не тИЦ, не ВИЦ, не количеством ссылок, не частотой ключевого слова, а соответствием запросу!
Polite Moose
На сайте с 22.04.2002
Offline
85
#42

Яндекс явно запутался в моих доменах.

При запросе http://www.yandex.ru/cycounter?старый_домен выдается денюшка с одним значением, по запросу http://www.yandex.ru/cycounter?новый_домен - с другим.

В выдаче старый_домен, но как найденый по ссылке.

Может проще всего письмо на addurl написать, что бы раз и навсегда?

M
На сайте с 25.01.2001
Offline
57
#43

> НЕ ДОЛЖНЫ ИНДЕКСИРОВАТЬСЯ ВООБЩЕ

Разумеется.

> (в том числе и зеркальщик)

Зеркальщик - это такой квазиробот, он берет с сайта всего несколько страниц и ничего не индексирует. robots.txt интерпретируется им по-своему, т.е. не как запрет для него заходить на этот сайт, а как пожелание не делать этот сайт главным зеркалом (по понятным причинам).

> Достаточно ли дерективы host

Нет, на данный момент, - не достаточно. Содержимое доменов должно полностью совпадать (если все url'ы домена редиректят на идентичные url'ы другого, т.е. есть полный редирект, это тоже считается совпадением).

> Происходит ли реальная склейка ... Будут ли...

Происходит, будут. Именно это, кстати, и является единственным аргументом против того, чтобы "верить" директиве host без проверки.

> Что мне лучше сделать, что бы не мучить себя и ваших роботов?

Список полезных советов сейчас выдает служба addurl при попытке добавить неглавное зеркало.

> Может проще всего письмо на addurl написать

С вероятностью 99.9% "раз и навсегда" Вам не сделают.

wolf
На сайте с 13.03.2001
Offline
1183
#44

Кстати, г-н melkov, давно мучил вопрос. У вас в советах вебмастеру написано:


Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.главное_имя.ru\" " -->
User-Agent: *
Disallow: /
<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме

www.главное_имя.ru.

То есть сайты, которые по мнению вебмастера должны считаться неглавными зеркалами, должны закрыться от индексирования файлом robots.txt. Допустим, до закрытия от индексации они были были проиндексированы, склеены и все такое. Предположим, что затем содержимое одного из второстепенных зеркал изменяется. Но Яндекс, по идее, не может узнать об этом, так как ему запрещена индексация этого зеркала. И, стало быть, два различных сайта будут продолжать считаться зеркалами со всеми вытекающими. Или же роботу-зеркальщику robots.txt не указ и он будет периодически проверять запрещенные к индексации зеркала?

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
M
На сайте с 25.01.2001
Offline
57
#45

wolf, "зеркальщик" действительно проверяет полностью запрещенные хосты, см. выше.

Специально добавлю, что он берет не более 10-15 документов с хоста за проверку, и ничего не индексирует. Кроме того, он не является сам по себе "пауком", так что, в силу служебной необходимости, он вынужден работать с robots.txt несколько не так, как остальные роботы.

wolf
На сайте с 13.03.2001
Offline
1183
#46
Специально добавлю, что он берет не более 10-15 документов с хоста за проверку, и ничего не индексирует. Кроме того, он не является сам по себе "пауком", так что, в силу служебной необходимости, он вынужден работать с robots.txt несколько не так, как остальные роботы.

Так, еще один невежливый робот, который по мнению представителей Яндекса и не робот вовсе. :) Ладно, закладочник, который задает запрос не GET, а HEAD. Ну, с натяжкой, робот D, который обрабатывает сабмит через Addurl (т.е. запускается руками). Но зеркальщик-то ПОЧЕМУ НЕ РОБОТ по-вашему??? Только потому, что берет за один заход всего 10-15 страниц??? Невежливых агентов, проверяющих позиции сайтов в выдаче Яндекса, которые за заход заберут 10-15 страниц, вы ведь роботами наверняка посчитаете и дадите отлуп за несоблюдение своего robots.txt!

M
На сайте с 25.01.2001
Offline
57
#47

wolf, новое обсуждение

> Невежливых агентов

будет проходить без моего участия.

Могу лишь заметить, что про "отлупы" за 10-15 страниц никогда раньше я не слышал.

Polite Moose
На сайте с 22.04.2002
Offline
85
#48

melkov, спасибо, успокоили.

LM
На сайте с 30.11.2001
Offline
71
LiM
#49
Как писал melkov
> Достаточно ли дерективы host
Нет, на данный момент, - не достаточно. Содержимое доменов должно полностью совпадать (если все url'ы домена редиректят на идентичные url'ы другого, т.е. есть полный редирект, это тоже считается совпадением).

Мда... А получается очень неприятно.

Реальная ситуация: раздел сайта был выделен в отдельный проект. Все страницы раздела перенесены на собственный домен и на старых местах поставлены редиректы на случай перехода пользователей по ссылкам с других сайтов на старые адреса.

В результате Яндекс склеил два сайта и в результатах поиска выдает вместо адресов нового сайта, те адреса, где стоят редиректы на новые места. Но создатели не планировали до скончания веков поддерживать редиректы. А теперь сидят и думают, как им быть, чтоб и сайты асклеить и посетителей не потерять - Яндекс же убирание редиректов не сразу заметит...

Как быть?

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
M
На сайте с 25.01.2001
Offline
57
#50

LiM, полностью редиректящий сайт не может быть выбран главным зеркалом.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий