Cherny

Рейтинг
120
Регистрация
19.09.2001
паук будет игнорировать только www.xxxxx.ru/goto/

А что мешает определять роботов и для них сессий не открывать?

Я описал те проблемы, которые сам исправлял бы в первую очередь.

Попробуйте идти последовательно: первым делом сделайте статическую карту сайта, скормите ее Гуглу и посмотрите что будет происходить дальше. Если проблема останется, надо будет копать глубже.

rgbeast, неправильно Вы запрещаете, правильно так:

User-agent: Yandex

Disallow: /

MaxT, если Вас смущает трафик, который ест робот Яндекса, то не смущает ли Вас трафик, который ест робот Гугля или Рамблера?

Вопрос, конечно, нетривиальный. Закройте от индексации Яндексом все страницы, которые нет смысла индексировать, а разрешите только наиболее важные. Наиболее действенный вариант описал spark, еще можно начинать title на всех страницах фразой "Только для резидентов Украины!".

Редиректы везде, но без них нельзя. А почему может быть в этом причина? Какая ему разница?
Насчёт куков посмотрю,но я не думаю что в этом причина, сессия для сайтов не держится.

Если без редиректов нельзя, то главной страницей изначально надо делать ту, на которую идет переадресация. Даже если это и не основная причина плохой индексации сайта, то проблемы с редиректами все равно будут.

Гуглу все равно, держится сессия, или нет, он не индексирует даже те ресурсы, где есть признаки сессий.

Я хотел подчеркнуть, что в две строки писать нужно!

Да, Вы правы, User-agent и Disallow в одной строке писать нельзя. Хотя даже если так, то robots.txt будет просто игнорироваться.

Netsah, если не надо ничего запрещать, то

User-agent: *

Disallow:

тоже правильно.

HEAD / HTTP/1.1

Host: test.xitex.net

HTTP/1.1 302 Found

Location: http://test.xitex.net/m1/ru/

С главной страницы сразу редирект, это на всех сайтах так?

Далее попытка поставить куку с идентификатором сессии, а Гугл сессии страсть как не любит.

Итого, резюме: надо избавиться от редиректа, если он есть, никаких признаков сессий Гуглу не выдавать.

В Хотлоге ассессора тоже можно засечь, в отчете откуда пришли. Где на сервере Ваши логи, Вам сможет рассказать Ваш хостер или системный администратор.

Их робот плохо разбирает ссылки. В Вашем случае это лезет из кода счетчиков.

У меня была ошибка в скрипте, который формировал список ссылок на статьи, при этом в коде ссылок отсутствовал пробел между параметрами (<a href="page.html"class="link">), тоже на 404 нарывался только робот Алексы, после исправления скрипта все нормализировалось.

Всего: 1011