Поисковики не видят замену Disallow на Allow в robots.txt

T
На сайте с 12.01.2013
Offline
18
911

Возникла проблема.

Переделывал один сайт. Переделывал его на "техническом" доменном имени на другом хостинге, чтобы видеть его он-лайн. Пока переделывал, естественно закрыл от индексации в robots.txt. После переделывания перенес сайт на новый хостинг уже со своим родным доменным именем. В robots.txt внес соответствующие замены, разрешающие индексировать контент.

Но возникла проблема! Страницы стали вылетать из индекса вообще, а на некоторых появляется надпись: "Содержимое заблокировано из-за robots.txt"

Начал копаться, посмотрел исходный код страниц. Везде стоит: <meta name="robots" content="noindex, nofollow" />

CMS Joomla. В ней можно поставить эти параметры для каждой страницы. Везде стоят "По умолчанию". Изменил у одной на index, follow - в исходном коде начало отображаться <meta name="robots" content="index, follow" />

Т.е. получается сайт берет параметры по умолчанию из какого-то другого места, а не из robots.txt , который лежит в корне.

Код файла

# If the Joomla site is installed within a folder such as at

# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: http://www.САЙТ/sitemap.xml

Лежит в корне папки public_html

L
На сайте с 07.12.2007
Offline
351
#1

Запрещать индексацию страниц можно И в robots.txt И мета-тэгами одновременно.

Robots.txt - удобен для масок на несколько страниц, и в движок сайта не надо лезть

Мета-тэги - на конкретную страницу, но позволяют более гибко управлять индексацией/проходу по ссылкам (index+nofollow, noindex+follow).

Сначала проверяется robots.txt, а потом - мета тэги. В панели вебмастера, запрет мета-тэгами может отражаться как "запрещён в robots.txt".

Для Яндекса можно протестировать тут.

S
На сайте с 06.08.2008
Offline
130
#2

Мало времени прошло. Можно платону отписать, чтоб быстрее глянули.

T
На сайте с 12.01.2013
Offline
18
#3

Все. Разобрался. Оказывается в Joomla запрет на индексацию есть и в роботсе, и для каждого материала по отдельности, и общий для сайта по умолчанию. Так вот этот общий стоял как запрет, и его наследовали все страницы. :(

Я все поменял назад, но пока я разбирался Google убрал мою стартовую страницу из индекса вообще. Хотя в Гугл картах сайт прекрасно виден.

И вот я думаю в чем проблема?

1) В том, что стоял некоторое время запрет на индексацию?

2) В том, что накануне я удалил из индекса Гугл штук 30-40 страниц этого сайта, которые вели на 404 ошибку?

3) В том, что стартовая страница поменяла свой контент?

V
На сайте с 06.12.2010
Offline
105
#4

1 вариант. проблема в запрете индексации..

А-ап, и тигры у ног моих сели...
T
На сайте с 12.01.2013
Offline
18
#5
Vtoroy:
1 вариант. проблема в запрете индексации..

И как думаете, как скоро страница вернется в индекс? Стаж сайта 5 лет, Тиц 10, PR -1, проблем с подозрительным контентом или вирусами никогда не было.

И главное, что делать, если пройдет долгое время, я сайт подобавляю в разные соц.закладки и каталоги, где его еще нет, а главная так и не войдет в Индекс?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий