Почему Гугл индексирует страницы закрытые в robots?

12 3
S
На сайте с 11.01.2012
Offline
48
2484

Комментарии закрыты в robots.txt, но Гугл в соплях проиндексировал (в комментариях есть слово "ответить" на комментарий):

Ответить - Как создать свой блог

delajblog.ru/kakoj-xosting-vybrat?replytocom=1461‎

A description for this result is not available because of this site's robots.txt – learn more.

Ответить - Как создать свой блог

delajblog.ru/kak-ubrat-zashifrovannuyu-ssylku-iz-wor...‎

A description for this result is not available because of this site's robots.txt – learn more.

Ответить - Как создать свой блог

delajblog.ru/vorovstvo-kontenta?replytocom=15‎

A description for this result is not available because of this site's robots.txt – learn more.

delajblog.ru/page/2/

A description for this result is not available because of this site's robots.txt – learn more.

Вопрос: как запретить гугл индексировать такие страницы?

Попытки создать свой сайт (http://delajblog.ru/)
[Удален]
#1

Потому что нужно его закрыть от индексации

S
На сайте с 11.01.2012
Offline
48
#2
ivanpetrov:
Потому что нужно его закрыть от индексации

Как? Эта страница уже закрыта в robots. Если nofollow, то где?

plattoo
На сайте с 12.05.2010
Offline
195
#3
ivanpetrov:
Потому что нужно его закрыть от индексации

Молодец, Иван Петров.

А ТС ответ такой: читайте http://robotstxt.org.ru/

S
На сайте с 11.01.2012
Offline
48
#4
plattoo:
Молодец, Иван Петров.

А ТС ответ такой: читайте http://robotstxt.org.ru/

Спасибо Вам, добрый человек.

A8
На сайте с 23.07.2012
Offline
62
#5

У меня та же проблема... в роботсе директории запрещены, а в соплях они есть хоть там и пишется рядом, что описание этой страницы запрещено роботсом... как быть?

Здесь я заказываю статьи по 10р за килознак (http://www.etxt.ru/?r=asd_88)
S
На сайте с 11.01.2012
Offline
48
#6
Asd88:
У меня та же проблема... в роботсе директории запрещены, а в соплях они есть хоть там и пишется рядом, что описание этой страницы запрещено роботсом... как быть?

Сейчас ищу решение. Наклевывается сразу несколько.

1. Засадить в robots

Disallow: /*/?replytocom=*

Только здесь внимательно разобраться со слешами.

Кстати, давным давно у меня стоят директивы:

Disallow: /*?*

Disallow: /*?

Но на replytocom они почему то не действуют.

2. Гугл вебмастер - Конфигурация - Параметры URL - настройка параметров URL и там уже разобраться с этим replytocom (кстати, там и можно увидеть сколько таких ссылок гуля наиндексировал).

3. В single.php находим вызов комментариев <?php

comments_template();

?>

И закрываем nofollow

Какой вариант выбрать пока не решил.

ЗЫ Всё это относится только к древовидным комментариям Wordpress и именно к словечку "Ответить".

S3
На сайте с 18.04.2011
Offline
109
#7
Sead:
Сейчас ищу решение. Наклевывается сразу несколько.
1. Засадить в robots
Disallow: /*/?replytocom=*
Только здесь внимательно разобраться со слешами.
Кстати, давным давно у меня стоят директивы:
Disallow: /*?*
Disallow: /*?
Но на replytocom они почему то не действуют.
2. Гугл вебмастер - Конфигурация - Параметры URL - настройка параметров URL и там уже разобраться с этим replytocom (кстати, там и можно увидеть сколько таких ссылок гуля наиндексировал).
3. В single.php находим вызов комментариев <?php
comments_template();
?>
И закрываем nofollow
Какой вариант выбрать пока не решил.
ЗЫ Всё это относится только к древовидным комментариям Wordpress и именно к словечку "Ответить".

роботс для гугла запрещает сканирование, а не индексирование - индексирование запрещает метатег noindex.

достаточно просто читать справку -

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

источник - http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449

в вордпресе в файле wp-includes/default-filters.php есть строчка

if ( isset( $_GET['replytocom'] ) )

add_action( 'wp_head', 'wp_no_robots' );
т.е. на стр с ?replytocom уже по умолчанию отдается
<meta name="robots" content="noindex,nofollow">
- вывод - чтобы выкинуть эти стр из индекса достаточно просто позволить боту их просканировать т.е. убрать из роботса строчку/и ,блокирующие доступ бота к этим урл. можно также установить плагин all in one seo и вкл там каноникал
Mik Foxi
На сайте с 02.03.2011
Offline
1214
#8

Отдавать на таких страницах не ответ 200, а доступ запрещен. Человеку это не помешает. А боту точно не даст индексировать. Я так с поиском по сайту сделал )

Антибот, антиспам, веб фаервол, защита от накрутки поведенческих: https://antibot.cloud/ (Зеркало: https://антибот.рф/ ) Форум на замену серчу: https://foxi.biz/
S
На сайте с 11.01.2012
Offline
48
#9
sok3535:
///. можно также установить плагин all in one seo и вкл там каноникал

Спасибо за информацию. Не пойму, только, давным давно стоит platinum seo pack и все страницы имеют свой

<link rel="canonical" href="http://delajblog.ru/" />

Отчего тогда происходит индексация?

S3
На сайте с 18.04.2011
Offline
109
#10
Sead:
Спасибо за информацию. Не пойму, только, давным давно стоит platinum seo pack и все страницы имеют свой
<link rel="canonical" href="http://delajblog.ru/" />
Отчего тогда происходит индексация?

ссылки внутр и внеш

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий