Google индексирует "закрытые" дубли страниц

12
A
На сайте с 15.04.2008
Offline
55
1219

Здравствуйте, форумчане.

С сайтом такая проблема - образуются дубли страниц:

основная

- site.ru//sankeramika

и дубли такого плана:

- site.ru/sankeramika?filter_product=

- site.ru/sankeramika/orderDesc?filter_product=

- site.ru/sankeramika/orderDesc/by,mf_name?filter_product=

- site.ru/sankeramika/by,mf_name?filter_product=

robots выглядит следующим образом:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /component/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /orderDesc

Disallow: /*detail

Disallow: /?start=

Disallow: /*results

Disallow: /*by,mf_name

Disallow: /*?filter_product=

После переиндексации прошло несколько месяцев, и в яндексе все дубли ушли, остались только нужные основные страницы. В Google же количество проиндексированных страниц в 5 раз больше, чем в яндексе и все дубли выводятся в supplemental index. Влияет ли это на оптимизацию сайта? И нужно ли с этим бороться?

16kb.ru (http://16kb.ru)
K
На сайте с 03.06.2015
Offline
45
#1

По-моему гуглю глубоко фиолетовы все эти рекомендации ведущих яндексоидов насчет роботов, сайтмапс и прочей древней лабуды. Говорят что только особые метатеги могут упросить гугль не индексировать страницу. Я такие делал для сайта на тестовый период залитого на левый домен, но проверять попал ли он в индекс или нет - не стал.

Гугль это не Яндекс только получше и побольше, гугля - это вообще другая политика и технология. Забейте. Главное чтобы нужное было на месте, а ненужное и не нужно.

---------- Добавлено 03.06.2015 в 23:10 ----------

Aurora:


и дубли такого плана:

В смысле скрипт генерит такого рода гиперссылки или зачем он генерит разные ссылки на один и тот же контент?

MYSQL PHP JS HTML CSS SEO TXT США СССР
A
На сайте с 15.04.2008
Offline
55
#2
kostyanet:
По-моему гуглю глубоко фиолетовы все эти рекомендации ведущих яндексоидов насчет роботов, сайтмапс и прочей древней лабуды....

Есессно, гугл клал на яндекс:D Однако это не отменяет политики самого google, который жестко наказывает за допущенные огрехи.

kostyanet:
Говорят что только особые метатеги могут упросить гугль не индексировать страницу.

А можно с этого места поподробнее? Речь идет о meta robots в коде html страниц?

C
На сайте с 25.03.2014
Offline
21
#3

Можете также в вебмастерах гугла попробовать их удалить. Сканирование->Параметры URL->Настройка параметров URL. Там добавляете параметр filter и запрещаете индексирование урлов, содержащих этот параметр. Подробнее тут описано https://support.google.com/webmasters/answer/6080550

slaviktorres
На сайте с 05.12.2010
Offline
183
#4

Я уже перестал бороться с гуглом, который индексирует, все, что хочет, закрывай, не закрывай. )

D
На сайте с 02.02.2010
Offline
133
#5
Настройки файла robots.txt являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

https://support.google.com/webmasters/answer/6062608?hl=ru

Чтобы предотвратить появление страницы в результатах поиска Google, вставьте в HTML-код страницы атрибут noindex.

https://support.google.com/webmasters/answer/93710

A
На сайте с 15.04.2008
Offline
55
#6

Спасибо, изучила эти доки. И тогда встречный вопрос: вставив код с noindex для каждой дублирующей страницы, нужно, соответственно, убрать запреты на индексацию в файле robots.txt. В результате google должен отреагировать, а яндекс?

D
На сайте с 02.02.2010
Offline
133
#7

Яндекс тоже реагирует на этот метатег

<meta name="Robots" content="Noindex,nofollow">

или для яндекса можно отдельное правило сделать в роботсе

User-agent: Yandex

A
На сайте с 15.04.2008
Offline
55
#8
divv:
Яндекс тоже реагирует на этот метатег


или для яндекса можно отдельное правило сделать в роботсе

User-agent: Yandex

Спасибо, схема понятная и оптимальная. Воспользуюсь.

Osan
На сайте с 25.03.2011
Offline
65
#9

А Вы не хотите попробовать добавить в роботс:

Disallow: /*?*

Как по мне синтаксис не правильный:

Disallow: /?start=
Disallow: /*results
Disallow: /*by,mf_name
Disallow: /*?filter_product=

Вообще, я бы рекомендовал отрегулировать все ссылки на плохие адреса - уходит вес со страницы, никакой пользы

Надеюсь это опечатка

site.ru//sankeramika
A
На сайте с 15.04.2008
Offline
55
#10
Osan:
А Вы не хотите попробовать добавить в роботс:


Как по мне синтаксис не правильный:

Не сильна в синтаксисах, составляла robots, ориентируясь на яндекс вебмастер.

Спасибо за дельную подсказку, отлично решился запрет индексации без лишних строк.

Osan:
Вообще, я бы рекомендовал отрегулировать все ссылки на плохие адреса - уходит вес со страницы, никакой пользы

Соглашусь на тысячу процентов, вот, разбираюсь, как оптимально решить вопрос в джумле.

P.S. да, site.ru//sankeramika - это опечатка:)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий