А что мешает определять роботов и для них сессий не открывать?
Я описал те проблемы, которые сам исправлял бы в первую очередь.
Попробуйте идти последовательно: первым делом сделайте статическую карту сайта, скормите ее Гуглу и посмотрите что будет происходить дальше. Если проблема останется, надо будет копать глубже.
rgbeast, неправильно Вы запрещаете, правильно так:
User-agent: Yandex
Disallow: /
MaxT, если Вас смущает трафик, который ест робот Яндекса, то не смущает ли Вас трафик, который ест робот Гугля или Рамблера?
Вопрос, конечно, нетривиальный. Закройте от индексации Яндексом все страницы, которые нет смысла индексировать, а разрешите только наиболее важные. Наиболее действенный вариант описал spark, еще можно начинать title на всех страницах фразой "Только для резидентов Украины!".
Если без редиректов нельзя, то главной страницей изначально надо делать ту, на которую идет переадресация. Даже если это и не основная причина плохой индексации сайта, то проблемы с редиректами все равно будут.
Гуглу все равно, держится сессия, или нет, он не индексирует даже те ресурсы, где есть признаки сессий.
Да, Вы правы, User-agent и Disallow в одной строке писать нельзя. Хотя даже если так, то robots.txt будет просто игнорироваться.
Netsah, если не надо ничего запрещать, то
User-agent: *
Disallow:
тоже правильно.
HEAD / HTTP/1.1
Host: test.xitex.net
HTTP/1.1 302 Found
Location: http://test.xitex.net/m1/ru/
С главной страницы сразу редирект, это на всех сайтах так?
Далее попытка поставить куку с идентификатором сессии, а Гугл сессии страсть как не любит.
Итого, резюме: надо избавиться от редиректа, если он есть, никаких признаков сессий Гуглу не выдавать.
В Хотлоге ассессора тоже можно засечь, в отчете откуда пришли. Где на сервере Ваши логи, Вам сможет рассказать Ваш хостер или системный администратор.
Их робот плохо разбирает ссылки. В Вашем случае это лезет из кода счетчиков.
У меня была ошибка в скрипте, который формировал список ссылок на статьи, при этом в коде ссылок отсутствовал пробел между параметрами (<a href="page.html"class="link">), тоже на 404 нарывался только робот Алексы, после исправления скрипта все нормализировалось.