Cherny

Рейтинг
120
Регистрация
19.09.2001

Каким образом определяется, какой язык выводить?

Дело в том, что робот Яндекса правильно запрашивает языковую версию:

Accept-Language: ru, uk, be, en, *;q=0.01

А рамблер как раз не выдает заголовок Accept-Language при запросе страницы.

Если сайт динамический, то можно поставить проверку на подстроку "Win16; I)" в User-agent и точно определить дату и время до секунды, когда индексирующий робот Яндекса был на главной странице.

Для яндекса указывайте директиву Host: в robots.txt с адресом главного зеркала:

Host: site.ru

Ссылки на www.site.ru будут приплюсовываться к главному зеркалу.

eve, при склейке зеркал выбирается одно главное. Какой адрес будет главным, с www или без, выбирает поисковик, Вы можете только подтолкнуть его к этому выбору. За исключением Яндекса, в котором можно четко задать главное зеркало.

Адрес для главного зеркала выбирается в каждом конкретном случае, в Вашем главное зеркало -- ввв.сайт.ру.

Насколько это неприятно для посещаемости и релевантности сайта? или с другой стороны вроде и документов по тематике как бы более.

www.site.ru и site.ru для поисковиков разные сайты. Неприятно только то, что внешние ссылки считаются для каждого отдельно. Со временем они "склеются" и все будет нормально.

можно ли запретить в robots.txt к индексации страницы с приставкой "www"

Можно запретить к индексации весь сайт с www, но только если robots.txt формировать динамически. Редирект делать не стоит.

ИМХО, управлять процессом склейки лучше при помощи внутренних ссылок -- ставить их как <a href="http://site.ru/">, а не <a href="/">. Аналогично и с внешними ссылками, постараться, чтобы они вели на http://site.ru

<base href="http://откуда_считать/">

У меня как-то апорт не смог обработать такую конструкцию и ссылки <a href="dir/file.html">, правда давно было.

@uthor, последите за логом ошибок, может кто споткнется.

Слава, поздравляю!

Всяческих успехов, послушных роботов, непадающих систем, больших денег от продажи Яндекса Майкрософту! :D

voko, какой ИЦ Вы имеете в виду? Если тИЦ Яндекса, то он расчитывается для сайта, поэтому все ссылки на внутренние страницы и так учитываются. В любом случае редиректов делать не стоит, больше потеряете, чем получите.

В robots.txt допишите следующие строки:

User-agent: Slurp

Disallow: /

В robots.txt никак, только

<meta name="robots" content="noindex,nofollow">

Всего: 1011