Индексация и robots.txt

12
onikys
На сайте с 04.07.2010
Offline
58
688

Никак не могу понять, почему в гугл лезут страницы, которые закрыты в robots.txt

http://awesomescreenshot.com/0e05ftcdd

Около 700 мусорных страницы влезло в индекс, хотя в robots четко прописано не индексировать.

iren K
На сайте с 28.12.2008
Offline
222
#1
onikys:
Никак не могу понять, почему в гугл лезут страницы, которые закрыты в robots.txt

тут можно почитать мнение гугла по этому вопросу,особенно обратите внимание на это:

While Google won't crawl or index the content of pages blocked by robots.txt, we may still index the URLs if we find them on other pages on the web.
c уважением Iren
Geers
На сайте с 12.04.2011
Offline
487
#2

Получается страницы не только должны быть закрыты в роботсе, но и их не должно существовать, тогда они сами вылетят.

persistent5
На сайте с 23.12.2010
Offline
54
#3

потёрто...

kimberlit
На сайте с 13.03.2007
Offline
370
#4
kimberlit:
onikys, в вашем robots.txt все строчки закомментироаванны

http://iphonchik.com.ua/robots.txt

Где?

persistent5
На сайте с 23.12.2010
Offline
54
#5

извиняюсь, не проснулся...

alexvivarina
На сайте с 27.02.2012
Offline
79
#6
onikys:
Никак не могу понять, почему в гугл лезут страницы, которые закрыты в robots.txt
http://awesomescreenshot.com/0e05ftcdd

Около 700 мусорных страницы влезло в индекс, хотя в robots четко прописано не индексировать.

Странная ситуация...

попробуйте письмо в службу поддержки со ссылкой на robots.txt и вид ссылки которая в индексе.

...

Я бы попробовал ещё с инструкцией поиграть, я думаю среди мусорных повторяется не только та часть которую вы в инструкцию добавили!

...

У яндекса инструкция работает?

[Удален]
#7

Из справки гугла:

Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс.

Используйте метатег noindex, чтобы содержание не появлялось в наших результатах поиска. При наличии метатега noindex на странице Google исключает всю страницу из наших результатов поиска, даже если на нее ссылаются другие страницы. Если содержание уже присутствует в нашем индексе, оно будет удалено при следующем сканировании.

У меня подобная проблема, как у ТС. Только у меня гугл индексирует выходящие ссылки с сайта.

S
На сайте с 20.08.2007
Offline
140
#8

Та же проблема.

Чтобы не дублировались страницы вида .../ и .../index.php я закрыл в роботсе все файлы index.php - Disallow: /*index.php$. Вчера обнаружил их в индексе. А в гуглвебмастере сообщение об ошибке, мол важные страницы закрыты от индексации. При этом, как я уже говорил, поисковик посчитал, что это ошибка и выпер их в индекс.

Я конечно, могу закрыть все .../index.php метатегом, но при этом и станицы вида .../ пострадают. Так что это не вариант вообще.

Хотя Гугл в последнее время вообще похож на гопника-беспредельщика из 90-х. Ему законы не писаны. Так что я не удивлен.

[Удален]
#9

Посмотрите тему Как удалить ненужные страницы с выдачи ?

Сам так удалил все ненужные страницы.

onikys
На сайте с 04.07.2010
Offline
58
#10
noindexxx:
Посмотрите тему Как удалить ненужные страницы с выдачи ?

Сам так удалил все ненужные страницы.

Насколько я понял там вручную каждую ссылку приписывать надо, это не вариант. Ну допустим я удалил все те страницы, но не факт что не появятся новые. Корень проблемы остается

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий