Гугл поисковик выдает страницы с тегами (хотя в robots.txt закрыты)

19

alalat

23 декабря 2010, 10:23

854

Сегодня проверяла в гугле поисковике наличии страниц. Вбиваю site:mojsite.ru, а он помимо прочих страниц, выдает еще и дубли. Например:

mojsite.ru/tag/название категории. И так по нескольким статьям... Файл robots неоднократно проверяла, закрыты там теги для гугла. Что делать ума не приложу, от чего так происходит. Просто боюсь, что в дальнейшем ситуация будет продолжатся и дальше при увеличении контента.

Где и в чем может быть ошибка?

P.S. На всякий случай, покажу кусок robots.txt, может все таки тут, что-т не так...

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /tag

Allow: /wp-content/uploads

Host: mojsite.ru

[Удален]

23 декабря 2010, 10:46

#1

у вас там вижу склейку с доменом без www (директива Host), и страницы именно без www выдаются, верно? вроде для гугла склейка по-другому делается, через .htaccess. возможно поэтому он выдает страницы. а может бред :)

Выбор главного зеркала для Яндекс внес изменения в Склейка важный инструмент SEO

5

socrates43

23 декабря 2010, 10:55

#2

у меня та же проблемма

Disallow: /links.html уже пару месяцев прописана в robots.txt и убрана из sitemap, а гугл по прежнему ее выдает

360

Психиатр

23 декабря 2010, 11:08

#3

Вес то не передает. Так что не переживайте. А ссылки ваши все равно будут гуглу известны. Вы их не спрячете роботсом.

- /links.html

Поди, с 1ps ссылки каталогов? Знает гугл о них, знает. 🚬

19

alalat

23 декабря 2010, 11:23

#4

badtier:
у вас там вижу склейку с доменом без www (директива Host), и страницы именно без www выдаются, верно? вроде для гугла склейка по-другому делается, через .htaccess. возможно поэтому он выдает страницы. а может бред :)

так он все страницы без www выдает (дублей с www и без нету), просто страницы с тегами попадают...

Так что сделать нужно? Убирать директиву host: mojsite.ru или переписать на host:www.mojsite.ru ?

Не совсем понимаю, как это поможет избавится от дублирования статей с тегами...

Или может эту папку закрыть от индексации?

Поставить Disallow: /wp-content/uploads

Или вообще эту строчку убрать?

Яндекс.Вебмастер поможет найти дубли О чем нужно помнить Выбор главного зеркала для

L

351

Ladycharm

23 декабря 2010, 14:03

#5

alalat:
P.S. На всякий случай, покажу кусок robots.txt, может все таки тут, что-т не так...

Проверьте свой robots.txt анализатором Яндекса. У Google в панели ВМ, кажись, тоже подобное есть, но не суть важно.

Загружаете свой robots.txt в анализатор и проверяете url на запрет индексации.

Ну и запрет в robots - это лишь рекомендация для вежливых роботов.

Платон Щукин про индексацию UPD: Twitter запретил поисковикам Twitter открыл для индексации

[Удален]

23 декабря 2010, 14:11

#6

Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

5

socrates43

23 декабря 2010, 14:39

#7

provocator:
Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

Как это? страница скрыта, адрес остался?

бред какой-то

socrates43 добавил 23-12-2010 в 17:42

Психиатр:
Вес то не передает. Так что не переживайте. А ссылки ваши все равно будут гуглу известны. Вы их не спрячете роботсом.

- /links.html
Поди, с 1ps ссылки каталогов? Знает гугл о них, знает. 🚬

Я физически убрал страницу с сервера, убрал из sitemap и сделал Disallow в robots.txt

а Гугл все равно ее выдает в поиске

Google Мой бизнес добавил В Яндекс.Почте появились группы «Переиндексирование» новый инструмент Яндекс.Вебмастера

19

alalat

23 декабря 2010, 14:51

#8

provocator:
Запрет на индексацию в robots.txt подразумевает скрытие содержимого страниц, но не адреса. Адреса могут участвовать в поиске по урлу.

Так зачем мне одну статью индексировать/ дублировать дважды, если я не хочу...

сперва mojsite.ru/categorija/пост,

затем таже сатья, но уже с тегом вылезает mojsite.ru/tag/тот же самый пост

Может и ерунда это все и не стоит так переживать, просто я боюсь, что тот же самый Гугл меня накажет за дубли :(

Google: при объединении нескольких Google: когда использовать rel=canonical, Эксперимент: Чем лучше выделять

M1

165

User

23 декабря 2010, 14:54

#9

Гугл индексирует всё что хочет, robots.txt использует лишь как рекомендацию, но не запрет. У меня тоже немало страниц закрытых в robots индексируется гуглом, особенно тех, на которые есть много внешних ссылок, с этим ничего не поделать.

Яндекс внес изменения в Для запрета индексирования ссылок UPD: Twitter запретил поисковикам

158

faedrus

23 декабря 2010, 14:59

#10

тоже довольно интересная ситуация.

Закрыл в роботсе от гугла все страницы, в результате то, что продвигал в Яндексе вылезло в топ Гугла, при этом ни тайтла ни описания, только "Главная" и урл.

Посмотрел на это, снял запрет в роботсе, все - позиции упали в небытие)

Ушел на завод

Эксперимент влияние уникальности контента Google: как скрыть сайт В Яндекс.Вебмастере появилась возможность

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Вышел новый Яндекс Браузер с YandexGPT и YandexART