Гуглу плевать на robots.txt?

12 3
Eremkin
На сайте с 29.03.2009
Offline
73
1791

Доброе время суток!

Последнее время меня Гугл просто шокирует, индексирует директории закрытые в Роботсе, а из индекса выкидывает страницы с уникальным контентом.

При анализе robots.txt через вебмастер Гугла, результаты проверки соответствуют директивам в Роботсе, но на деле все наоборот....

К примеру,

User-agent: *

Disallow: /go/*

Disallow: /tag/*

Через анализ Роботса, все ОК - говорит запрещены.

НО В ИНДЕКСЕ все эти директории есть...

Что заметил:

Делается сайт, составляется Роботс. Гуглу на него (роботс) плевать, и он начинает сжирать все страницы сайта, в том числе и редиректы!!!!!

Проходит около года, Гугла начинает выворачивать (видимо от обжорства), и он начинает лихими темпами выкидывать все из индекса, оставляя 30-60% уникальных страниц. Остальные уникальные страницы вместе с закрытыми директориями в роботсе вылетают из индекса...

Кто сталкивался? Как бороться? Он мне надоел (((

M1
На сайте с 13.02.2007
Offline
165
#1

Замечал такую проблему. Покажите сайт (в ЛС?), хочется посмотреть более детально.

[Удален]
#2

у меня в вебмастере - "странички исключены"

lekoleko
На сайте с 22.11.2006
Offline
118
#3

У меня та же история описанная вами 1 в 1. Тысячи страниц хлама, запрещенные в роботсе но присутствующие в индексе гугла :(.

Может указать конкретно что запрет именно для гугла? Типа: User-agent: Googlebot

Не пробовали?

M
На сайте с 03.08.2008
Offline
74
#4
lekoleko:
У меня та же история описанная вами 1 в 1. Тысячи страниц хлама, запрещенные в роботсе но присутствующие в индексе гугла :(.

Может указать конкретно что запрет именно для гугла? Типа: User-agent: Googlebot

Не пробовали?

Я такое пробовал. В большинстве случаев не помогало. Помогло только исключение из поиска и индексирования средствами CMS.

www.business-real.com (http://www.business-real.com) Сам верстаю, сам программирую, сам пишу статьи (почти всегда).
[Удален]
#5

Да гугл вообще неадекватный, у меня все запрещенное к индексации внаглую внес в индекс!

D
На сайте с 09.04.2009
Offline
16
#6

А мне кажется что правильно так

User-agent: *

Disallow: /go/

Disallow: /tag/

создание и продвижение сайтов (http://www.artos.com.ua/)
name-k
На сайте с 05.02.2010
Offline
57
#7

На практике заметил, что недостаточно закрывать только в роботсе, нужно обязательно ставить нофоллов в ссылки на закрытые в роботсе страницы.

Получается, что робот заходит по ссылке на закрытую страницу, потом смотрит в роботс, видит, что она закрыта и уходит обратно. Есть мнение что он вообще смотрит пакет страниц, а потом уже сверяет урлы с роботс. Т.е. таким образом он еще тратит драгоценный лимит сканов для сайта.

Сколько у вас страниц в основном индексе?

Куплю украинские аккаунты AdSense. Стучитесь в ЛС.
V
На сайте с 16.05.2010
Offline
66
#8

Мой сайт гугл сначала полностью в индекс забросил, а сейчас потихоньку выплевывает то, что в роботс запрещено.

M
На сайте с 27.10.2006
Offline
111
#9
Eremkin:
индексирует директории закрытые в Роботсе

Более, чем уверен, они были проиндексированы до создания robots.txt.

Мой совет — забыть про robots.txt навсегда и использовать .htaccess. И не нужно будет ничего вручную удалять.

name-k:
нужно обязательно ставить нофоллов в ссылки на закрытые в роботсе страницы

Это смешно.

Бесплатное хранилище данных (http://bit.ly/gJYy9Z) (5GB) с синхронизацией. По ссылке — бонус 500MB.
lekoleko
На сайте с 22.11.2006
Offline
118
#10
Мой совет — забыть про robots.txt навсегда и использовать .htaccess. И не нужно будет ничего вручную удалять.

Приведите пример пожалуйста. Вот например у меня в индексе тысячи мусорных страниц типа сайт.ru/index2.php?option=com_content&бла-бла-бла

Как доказать гуглу что тут рыбы нет? :)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий