Гугл поисковик выдает страницы с тегами (хотя в robots.txt закрыты)

12
alalat
На сайте с 16.11.2010
Offline
19
854

Сегодня проверяла в гугле поисковике наличии страниц. Вбиваю site:mojsite.ru, а он помимо прочих страниц, выдает еще и дубли. Например:

mojsite.ru/tag/название категории. И так по нескольким статьям... Файл robots неоднократно проверяла, закрыты там теги для гугла. Что делать ума не приложу, от чего так происходит. Просто боюсь, что в дальнейшем ситуация будет продолжатся и дальше при увеличении контента.

Где и в чем может быть ошибка?

P.S. На всякий случай, покажу кусок robots.txt, может все таки тут, что-т не так...

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /tag

Allow: /wp-content/uploads

Host: mojsite.ru

[Удален]
#1

у вас там вижу склейку с доменом без www (директива Host), и страницы именно без www выдаются, верно? вроде для гугла склейка по-другому делается, через .htaccess. возможно поэтому он выдает страницы. а может бред :)

socrates43
На сайте с 08.12.2010
Offline
5
#2

у меня та же проблемма

Disallow: /links.html уже пару месяцев прописана в robots.txt и убрана из sitemap, а гугл по прежнему ее выдает

Психиатр
На сайте с 16.11.2010
Offline
360
#3

Вес то не передает. Так что не переживайте. А ссылки ваши все равно будут гуглу известны. Вы их не спрячете роботсом.

- /links.html

Поди, с 1ps ссылки каталогов? Знает гугл о них, знает. 🚬

alalat
На сайте с 16.11.2010
Offline
19
#4
badtier:
у вас там вижу склейку с доменом без www (директива Host), и страницы именно без www выдаются, верно? вроде для гугла склейка по-другому делается, через .htaccess. возможно поэтому он выдает страницы. а может бред :)

так он все страницы без www выдает (дублей с www и без нету), просто страницы с тегами попадают...

Так что сделать нужно? Убирать директиву host: mojsite.ru или переписать на host:www.mojsite.ru ?

Не совсем понимаю, как это поможет избавится от дублирования статей с тегами...

Или может эту папку закрыть от индексации?

Поставить Disallow: /wp-content/uploads

Или вообще эту строчку убрать?

L
На сайте с 07.12.2007
Offline
351
#5
alalat:
P.S. На всякий случай, покажу кусок robots.txt, может все таки тут, что-т не так...

Проверьте свой robots.txt анализатором Яндекса. У Google в панели ВМ, кажись, тоже подобное есть, но не суть важно.

Загружаете свой robots.txt в анализатор и проверяете url на запрет индексации.

Ну и запрет в robots - это лишь рекомендация для вежливых роботов.

[Удален]
#6

Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

socrates43
На сайте с 08.12.2010
Offline
5
#7
provocator:
Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

Как это? страница скрыта, адрес остался?

бред какой-то

socrates43 добавил 23-12-2010 в 17:42

Психиатр:
Вес то не передает. Так что не переживайте. А ссылки ваши все равно будут гуглу известны. Вы их не спрячете роботсом.

- /links.html
Поди, с 1ps ссылки каталогов? Знает гугл о них, знает. 🚬

Я физически убрал страницу с сервера, убрал из sitemap и сделал Disallow в robots.txt

а Гугл все равно ее выдает в поиске

alalat
На сайте с 16.11.2010
Offline
19
#8
provocator:
Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

Так зачем мне одну статью индексировать/ дублировать дважды, если я не хочу...

сперва mojsite.ru/categorija/пост,

затем таже сатья, но уже с тегом вылезает mojsite.ru/tag/тот же самый пост

Может и ерунда это все и не стоит так переживать, просто я боюсь, что тот же самый Гугл меня накажет за дубли :(

M1
На сайте с 13.02.2007
Offline
165
#9

Гугл индексирует всё что хочет, robots.txt использует лишь как рекомендацию, но не запрет. У меня тоже немало страниц закрытых в robots индексируется гуглом, особенно тех, на которые есть много внешних ссылок, с этим ничего не поделать.

faedrus
На сайте с 30.10.2008
Offline
158
#10

тоже довольно интересная ситуация.

Закрыл в роботсе от гугла все страницы, в результате то, что продвигал в Яндексе вылезло в топ Гугла, при этом ни тайтла ни описания, только "Главная" и урл.

Посмотрел на это, снял запрет в роботсе, все - позиции упали в небытие)

Ушел на завод
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий