Гугл проиндексировал страницы раздела, закрытого от индексации

AP
На сайте с 10.07.2007
Offline
151
813

Есть сайт. Robots.txt сайта выглядит следующим образом:

# robots.txt for http://site.com

User-agent: *

Disallow: /cgi-bin/

Disallow: /admin/

Disallow: /import/

Disallow: /include/

Disallow: /modules/

Disallow: /sys/

Disallow: /order/

Disallow: /order.php

Disallow: /comparison/

Disallow: /registration/

Host: www.site.com

Sitemap: http://www.site.com/sitemap.xml

Как в индекс попали страницы раздела и сам раздел site.com/order/ ?

По запросу site:site.com/order/ гугл выдает как сам раздел, так и страницы раздела с параметрами вида site.com/order/?бла-бла-бла

Где ошибка?

E
На сайте с 21.09.2009
Offline
283
#1

ArtPresident, они попали до вставки в роботс. (предположительно) как советуют гугловцы удалите из роботс эту строчку, вставьте на страницу ноиндекс робот зайдет увидит команду и они уйдут из выдачи.

september
На сайте с 11.09.2009
Offline
591
#2
ArtPresident, они попали до вставки в роботс. (предположительно)

Нет, просто гугл считает роботс скорее рекомендацией, чем правилом. А так индексирует все подряд.

$ карта для вывода вебмани в любой точке мира (https://www.epayments.com/registration?p=dc2462e885)
E
На сайте с 21.09.2009
Offline
283
#3

september, гугле бот не считает роботс рекомендацией. Он его слушает полностью. Но если страницы проиндексировались то их нужно уже удалять.

S
На сайте с 06.09.2010
Offline
18
#4

Лично я устал уже удалять из индекса запрещенные страницы, задрал он уже индексировать их. В роботс указано что нельзя, на странице указано noindex,nofolow, в панели веб мастера тоже указано что нельзя и один хрен индексирует только поудаляю через день два опять все загоняет, и самое интересное когда беру эту ссылку и панели веб мастера вставляю посмотреть как гугл бот он мне пишет что нельзя, запрещено. Вот и спрашивается, какого фига он их индексирует???

Мой сайт (http://www.remstroy.od.ua)
E
На сайте с 21.09.2009
Offline
283
#5

starokonka, читайте внимательно мой первый пост.

[Удален]
#6
Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.
Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449

medexpert
На сайте с 19.02.2012
Offline
83
#7

1. Ставим пользователю куки - как маркер.

2. Перед обращением к закрытому разделу - проверяем поддержку куки и если нет, говорим "Включите ...".

3. В закрытом разделе на каждой странице проверяем наличие маркера. Если нет --> 404

... скорее 403

"... Нет того веселья: Или куришь натощак, Или пьёшь с похмелья."

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий