Индексация запрещённых страниц

12
ВC
На сайте с 02.02.2006
Offline
463
2875

В роботсе написано:

User-agent: *

Disallow: /flash/
Disallow: /images/
Disallow: /reading.php
Disallow: /404.html

И, тем не менее, в перечне проиндексированных гуглом страниц вижу такой список:

rect.ru/404.htm

rect.ru/reading.php?n=11
rect.ru/reading.php?n=20
rect.ru/reading.php?n=2
rect.ru/reading.php?n=10

Как полагаете, почему так?

SubAqua
На сайте с 21.10.2005
Offline
199
#1

По логам посмотрите когда бот заходил и когда Вы прописали robots, по датам.

angr
На сайте с 11.05.2006
Offline
413
#2

пропишите так:

Disallow: /reading.php*
Disallow: /404.htm*
Требуется СЕО-Специалист в Кишиневе, в офис. ()
ВC
На сайте с 02.02.2006
Offline
463
#3
SubAqua:
По логам посмотрите когда бот заходил и когда Вы прописали robots, по датам.

robots я раньше разместил - я эту проблему ожидал и заранее об этом побеспокоился. Но похоже, что бот прочитал его позже!

Модификацию

Disallow: /reading.php*
сейчас добавил. Это хорошая идея, спасибо!

Ещё вот думаю: может, использовать конструкцию

<link rel="canonical" href="http://example.com/product.php?item=fish"/> 

Хотя, по сути, это не уместно.

Как полагаете?

MagOfSeo
На сайте с 28.07.2011
Offline
49
#4

Добавление каноникалов как вариант, но лучше проставить на странице, которую не нужно индексировать

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Последняя время заметил, что гугл игнорирует роботс и по этому решаю проблемы такого плана с помощью вышеуказанного мета-тега!

Keep moving
На сайте с 20.10.2009
Offline
94
#5

Где-то видел мнение что роботс носит всего лишь рекомендательный характер, а не запрещающий, и затем на своем опыте убедился что в индекс заползают даже страницы с полностью закрытого сайта. <meta> по идее должно решить проблему.

d4k
На сайте с 02.03.2010
Offline
146
d4k
#6
angr:
пропишите так:

+1, у вас роботс неверно составлен. Если более 2х недель страницы не начнут выпадать - то можете их вручную удалить через GWT. (если их не так много)

Keep moving:
Где-то видел мнение что роботс носит всего лишь рекомендательный характер, а не запрещающий, и затем на своем опыте убедился что в индекс заползают даже страницы с полностью закрытого сайта. <meta> по идее должно решить проблему.

<meta> могут работать аналогично. Бобби Катц заявлял уже, что закрытые в роботсе страницы могут "вылазить" если на них активно ссылаются внешние\внутренние страницы и т.п. robots - не панацея, но закрыть неиспользуемый мусор и тех. страницы поможет)

Keep moving
На сайте с 20.10.2009
Offline
94
#7
d4k:
<meta> могут работать аналогично. Бобби Катц заявлял уже, что закрытые в роботсе страницы могут "вылазить" если на них активно ссылаются внешние\внутренние страницы и т.п. robots - не панацея, но закрыть неиспользуемый мусор и тех. страницы поможет)

Дада, именно о нем я и говорил :)

M
На сайте с 20.06.2011
Offline
5
#8
angr:
пропишите так:

"По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*'"

так что

Disallow: /reading.php

=

Disallow: /reading.php*

а вот

Disallow: /404.html

не запрещает 404.htm

гугл видимо в принципе не смотрит в роботс, на моем сайте каким-то образом индексирует результаты поиска, и постоянно добавляет их в запрещенные страницы в Инструментах вебмастера.

Мэт Катц клянется в роликах, что метатег должен помочь)

Sower
На сайте с 30.12.2009
Offline
659
#9
MagOfSeo:
Добавление каноникалов как вариант, но лучше проставить на странице, которую не нужно индексировать
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Зачем там прописывать NOFOLLOW?

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)
богоносец
На сайте с 30.01.2007
Offline
775
#10
Владимир-C:
Это хорошая идея, спасибо!

А чем она отличается от Disallow: /reading.

Mikelius:
Мэт Катц клянется в роликах, что метатег должен помочь
Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.) http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=93710

https://mail.yandex.ru/neo2/?nocache спамерюгам на заметку

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий