Google индексирует страницы запрещенные в robots.txt

U1
На сайте с 19.07.2013
Offline
6
2898

Прописал в robots.txt служебные страницы, что бы поисковики не индексировали лишнего.

Однако, google упорно индексирует их.

Причем количество проиндексированных страниц скачет от 300 до 800.

Полезных страниц на сайте порядка 250, остальное служебные (они запрещены для индексирования).

Однако, ощущение такое что гуглу до лампочки robots.txt

Почему такое происходит?

X
На сайте с 12.07.2012
Offline
70
#1

контент в кеш не попадет)

U0
На сайте с 20.12.2012
Offline
12
#2

У меня такая проблема, но сейчас вроде Гугл выплевывает страницы, что прописаны в роботсе. С дублями мучился

богоносец
На сайте с 30.01.2007
Offline
753
#3
U-124:
Почему такое происходит?

Враг (или сам владелец сайта) поставил сцылку на ту страницу. А сервак ответил 200

W
На сайте с 13.12.2007
Offline
89
#4

to TC,

может Вы неправильно настроили robots.txt?

P.S. Если закрыть страницы, которые раньше были в индексе в robots.txt, то они по прежнему будут в индексе, но со сниппетом:

A description for this result is not available because of this site's robots.txt – learn more.

Я же рекомендую закрывать страницы с помощью метатега robots.

B
На сайте с 18.06.2012
Offline
29
#5

таже история с пагинацией была пришлось изменить ссылки и посадить всё лишнее на скрипт

S
На сайте с 10.01.2011
Offline
61
#6

Гугл может индексировать страницы, закрытые в robots.txt, вот выдержка

"Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс."

Далее по тексту

"Используйте метатег noindex, чтобы содержание не появлялось в результатах поиска Google. При наличии метатега noindex на странице Google исключает всю страницу из наших результатов поиска, даже если на нее ссылаются другие страницы. Если содержание уже присутствует в нашем индексе, оно будет удалено при следующем сканировании."

Источник - Справка Google

Также

Чтобы полностью исключить вероятность появления содержания страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

Источник - Справка Google

В общем, используйте метатег robots для запрета индексации в Гугл.

Vir2al
На сайте с 10.08.2009
Offline
80
#7

Я вам даже больше скажу, лично видел пример, когда гугл забрал в выдачу страницу закрытую не только в robots.txt, но и при помощи <meta name="robots" content="noindex,nofollow"/>

Раньше эта страница была открыта полностью, на нее ведет довольно большое число бэков, сама страница уже месяца как 3 закрыта полностью, но Google активно держит ее в индексе.

W
На сайте с 13.12.2007
Offline
89
#8
Vir2al:
Я вам даже больше скажу, лично видел пример, когда гугл забрал в выдачу страницу закрытую не только в robots.txt, но и при помощи <meta name="robots" content="noindex,nofollow"/>
Раньше эта страница была открыта полностью, на нее ведет довольно большое число бэков, сама страница уже месяца как 3 закрыта полностью, но Google активно держит ее в индексе.

Что мешает удалить её через Google Webmaster?

P.S. Для того, чтобы поисковый робот прочитал на странице метатег robots, нужно чтобы она была открыта в robots.txt.

U1
На сайте с 19.07.2013
Offline
6
#9

Отчего может скакать количество индексируемых страниц ?

Вчера было 1000 сегодня уже 400 (-600), завтра снова станет 1000+

R
На сайте с 13.04.2009
Offline
160
#10

От того что сайт молодой или правила robots вступают в силу.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий