Каким образом определяется, какой язык выводить?
Дело в том, что робот Яндекса правильно запрашивает языковую версию:
Accept-Language: ru, uk, be, en, *;q=0.01
А рамблер как раз не выдает заголовок Accept-Language при запросе страницы.
Если сайт динамический, то можно поставить проверку на подстроку "Win16; I)" в User-agent и точно определить дату и время до секунды, когда индексирующий робот Яндекса был на главной странице.
Для яндекса указывайте директиву Host: в robots.txt с адресом главного зеркала:
Host: site.ru
Ссылки на www.site.ru будут приплюсовываться к главному зеркалу.
eve, при склейке зеркал выбирается одно главное. Какой адрес будет главным, с www или без, выбирает поисковик, Вы можете только подтолкнуть его к этому выбору. За исключением Яндекса, в котором можно четко задать главное зеркало.
Адрес для главного зеркала выбирается в каждом конкретном случае, в Вашем главное зеркало -- ввв.сайт.ру.
www.site.ru и site.ru для поисковиков разные сайты. Неприятно только то, что внешние ссылки считаются для каждого отдельно. Со временем они "склеются" и все будет нормально.
Можно запретить к индексации весь сайт с www, но только если robots.txt формировать динамически. Редирект делать не стоит.
ИМХО, управлять процессом склейки лучше при помощи внутренних ссылок -- ставить их как <a href="http://site.ru/">, а не <a href="/">. Аналогично и с внешними ссылками, постараться, чтобы они вели на http://site.ru
У меня как-то апорт не смог обработать такую конструкцию и ссылки <a href="dir/file.html">, правда давно было.
@uthor, последите за логом ошибок, может кто споткнется.
Слава, поздравляю!
Всяческих успехов, послушных роботов, непадающих систем, больших денег от продажи Яндекса Майкрософту! :D
voko, какой ИЦ Вы имеете в виду? Если тИЦ Яндекса, то он расчитывается для сайта, поэтому все ссылки на внутренние страницы и так учитываются. В любом случае редиректов делать не стоит, больше потеряете, чем получите.
В robots.txt допишите следующие строки:
User-agent: Slurp
Disallow: /
В robots.txt никак, только
<meta name="robots" content="noindex,nofollow">