Комментарии - Cherny - Профиль вебмастера - Форум об интернет-маркетинге

Вопрос по использованию robots.txt

8 апреля 2004, 16:01

паук будет игнорировать только www.xxxxx.ru/goto/

Индексирует только индексную страницу

7 апреля 2004, 10:58

А что мешает определять роботов и для них сессий не открывать?

Индексирует только индексную страницу

7 апреля 2004, 06:56

Я описал те проблемы, которые сам исправлял бы в первую очередь.

Попробуйте идти последовательно: первым делом сделайте статическую карту сайта, скормите ее Гуглу и посмотрите что будет происходить дальше. Если проблема останется, надо будет копать глубже.

Трудный вопрос по Яндексу

6 апреля 2004, 20:46

rgbeast, неправильно Вы запрещаете, правильно так:

User-agent: Yandex

Disallow: /

MaxT, если Вас смущает трафик, который ест робот Яндекса, то не смущает ли Вас трафик, который ест робот Гугля или Рамблера?

Вопрос, конечно, нетривиальный. Закройте от индексации Яндексом все страницы, которые нет смысла индексировать, а разрешите только наиболее важные. Наиболее действенный вариант описал spark, еще можно начинать title на всех страницах фразой "Только для резидентов Украины!".

Индексирует только индексную страницу

6 апреля 2004, 14:54

Редиректы везде, но без них нельзя. А почему может быть в этом причина? Какая ему разница?
Насчёт куков посмотрю,но я не думаю что в этом причина, сессия для сайтов не держится.

Если без редиректов нельзя, то главной страницей изначально надо делать ту, на которую идет переадресация. Даже если это и не основная причина плохой индексации сайта, то проблемы с редиректами все равно будут.

Гуглу все равно, держится сессия, или нет, он не индексирует даже те ресурсы, где есть признаки сессий.

Индексирует только индексную страницу

6 апреля 2004, 14:32

Я хотел подчеркнуть, что в две строки писать нужно!

Да, Вы правы, User-agent и Disallow в одной строке писать нельзя. Хотя даже если так, то robots.txt будет просто игнорироваться.

Индексирует только индексную страницу

6 апреля 2004, 14:22

Netsah, если не надо ничего запрещать, то

User-agent: *

Disallow:

тоже правильно.

Индексирует только индексную страницу

6 апреля 2004, 14:20

HEAD / HTTP/1.1

Host: test.xitex.net

HTTP/1.1 302 Found

Location: http://test.xitex.net/m1/ru/

С главной страницы сразу редирект, это на всех сайтах так?

Далее попытка поставить куку с идентификатором сессии, а Гугл сессии страсть как не любит.

Итого, резюме: надо избавиться от редиректа, если он есть, никаких признаков сессий Гуглу не выдавать.

Referrer: assessor

6 апреля 2004, 14:07

В Хотлоге ассессора тоже можно засечь, в отчете откуда пришли. Где на сервере Ваши логи, Вам сможет рассказать Ваш хостер или системный администратор.

"иа_архивер"

6 апреля 2004, 12:02

Их робот плохо разбирает ссылки. В Вашем случае это лезет из кода счетчиков.

У меня была ошибка в скрипте, который формировал список ссылок на статьи, при этом в коде ссылок отсутствовал пробел между параметрами (<a href="page.html"class="link">), тоже на 404 нарывался только робот Алексы, после исправления скрипта все нормализировалось.

Open AI тестирует память для ChatGPT

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Cherny