Почему Гугл индексирует страницы закрытые в robots?

123
S
На сайте с 11.01.2012
Offline
48
#11

Пример:

Имеется страница http://delajblog.ru/acronis-true-image-home

На этой странице есть ссылка "Ответить"

<a class='comment-reply-link' href='/acronis-true-image-home?replytocom=1492#respond' onclick='return addComment.moveForm("div-comment-1492", "1492", "respond", "4112")'>Ответить</a>

Эта ссылка ведёт на адрес

http://delajblog.ru/acronis-true-image-home?replytocom=1492#respond

Этот адрес проверяю в гугл вебмастере:

Заблокировано по строке 15: Disallow: /*?*

Т.е по сгенерированной странице робот не ходит, но индексирует.

В коде на странице стоит

<meta name='robots' content='noindex,nofollow' />

Не пойму: отчего тогда индексация?

Кажется так: робот не может прочитать, что страницу индексировать не нужно, т.к. стоит запрет в robots на посещение этой страницы. Но если убрать Disallow: /*?*, то появятся другие дубли, например, поиск по сайту даст страницу с "?"

---------- Добавлено 09.06.2013 в 13:30 ----------

foxi:
Отдавать на таких страницах не ответ 200, а доступ запрещен. Человеку это не помешает. А боту точно не даст индексировать. Я так с поиском по сайту сделал )

В .htasses так можно?

RewriteCond %{QUERY_STRING} replytocom=

RewriteRule ^(.*)$ /$1? [R=301,L]

Попытки создать свой сайт (http://delajblog.ru/)
S3
На сайте с 18.04.2011
Offline
109
#12
Sead:
Пример:
Имеется страница http://delajblog.ru/acronis-true-image-home
На этой странице есть ссылка "Ответить"
<a class='comment-reply-link' href='/acronis-true-image-home?replytocom=1492#respond' onclick='return addComment.moveForm("div-comment-1492", "1492", "respond", "4112")'>Ответить</a>
Эта ссылка ведёт на адрес
http://delajblog.ru/acronis-true-image-home?replytocom=1492#respond
Этот адрес проверяю в гугл вебмастере:
Заблокировано по строке 15: Disallow: /*?*
Т.е по сгенерированной странице робот не ходит, но индексирует.
В коде на странице стоит
<meta name='robots' content='noindex,nofollow' />
Не пойму: отчего тогда индексация?

еще раз - роботс для гугла запрещает сканирование, а не индексирование - индексирование запрещает метатег noindex. и сюда - http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449 там все разжевано, чтобы бот считал метатег на стр не должно быть запретов в роботсе

Sead:

Кажется так: робот не может прочитать, что страницу индексировать не нужно, т.к. стоит запрет в robots на посещение этой страницы. Но если убрать Disallow: /*?*, то появятся другие дубли, например, поиск по сайту даст страницу с "?"

какие дубли?

S
На сайте с 11.01.2012
Offline
48
#13
sok3535:
еще раз - роботс для гугла запрещает сканирование, а не индексирование - индексирование запрещает метатег noindex. и сюда - http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449 там все разжевано, чтобы бот считал метатег на стр не должно быть запретов в роботсе

какие дубли?

То что роботс запрещает сканирование, но не индексирование уже вбил себе в долговременную память.

Кажется дошло. Спасибо за рекомендации.

X
На сайте с 12.07.2012
Offline
70
#14
Asd88:
У меня та же проблема... в роботсе директории запрещены, а в соплях они есть хоть там и пишется рядом, что описание этой страницы запрещено роботсом... как быть?

тупеж полный😂

да открой ты эти страницы в роботс, и метатегами запрети. Гугл же ясно сказал, что страница запрещена роботсом🤪 как только откроешь он ее схавает с метатегами

S
На сайте с 11.01.2012
Offline
48
#15

Теоретический вопрос: почему другие документы запрещенные в robots.txt не попадают в дополнительный индекс Google?

Хотя есть и другие документы, запрещенные в robots.txt. которые также попали в индекс. Почему одни документы попадают в индекс, а другие - нет?

X
На сайте с 12.07.2012
Offline
70
#16
Sead:
Теоретический вопрос: почему другие документы запрещенные в robots.txt не попадают в дополнительный индекс Google?
Хотя есть и другие документы, запрещенные в robots.txt. которые также попали в индекс. Почему одни документы попадают в индекс, а другие - нет?

а почему одни страницы попадают в индекс.а другие нет!?

S
На сайте с 11.01.2012
Offline
48
#17
xarraw:
а почему одни страницы попадают в индекс.а другие нет!?

Потому что гуглу глубоко наплевать на robots.txt.

"Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс" -справка гугла.

G
На сайте с 24.08.2012
Offline
18
#18

используйте noindex

X
На сайте с 12.07.2012
Offline
70
#19
Sead:
Потому что гуглу глубоко наплевать на robots.txt.

"Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс" -справка гугла.

хватит тупить! открой роботс и поставь метатеги😡 мудак!

AR
На сайте с 13.09.2008
Offline
51
#20
Яндекс лучше или Google лучше? Яндекс - доказано Google. (http://noindex.by/meta/chto-luchshe-google-ili-yandeks#comment-5911)
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий