Google индексирует "закрытые" дубли страниц

A

55

Aurora

3 июня 2015, 12:20

1219

Здравствуйте, форумчане.

С сайтом такая проблема - образуются дубли страниц:

основная

- site.ru//sankeramika

и дубли такого плана:

- site.ru/sankeramika?filter_product=

- site.ru/sankeramika/orderDesc?filter_product=

- site.ru/sankeramika/orderDesc/by,mf_name?filter_product=

- site.ru/sankeramika/by,mf_name?filter_product=

robots выглядит следующим образом:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /component/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /orderDesc

Disallow: /*detail

Disallow: /?start=

Disallow: /*results

Disallow: /*by,mf_name

Disallow: /*?filter_product=

После переиндексации прошло несколько месяцев, и в яндексе все дубли ушли, остались только нужные основные страницы. В Google же количество проиндексированных страниц в 5 раз больше, чем в яндексе и все дубли выводятся в supplemental index. Влияет ли это на оптимизацию сайта? И нужно ли с этим бороться?

16kb.ru (http://16kb.ru)

K

45

kostyanet

3 июня 2015, 20:04

#1

По-моему гуглю глубоко фиолетовы все эти рекомендации ведущих яндексоидов насчет роботов, сайтмапс и прочей древней лабуды. Говорят что только особые метатеги могут упросить гугль не индексировать страницу. Я такие делал для сайта на тестовый период залитого на левый домен, но проверять попал ли он в индекс или нет - не стал.

Гугль это не Яндекс только получше и побольше, гугля - это вообще другая политика и технология. Забейте. Главное чтобы нужное было на месте, а ненужное и не нужно.

---------- Добавлено 03.06.2015 в 23:10 ----------

Aurora:

и дубли такого плана:

В смысле скрипт генерит такого рода гиперссылки или зачем он генерит разные ссылки на один и тот же контент?

MYSQL PHP JS HTML CSS SEO TXT США СССР

A

55

Aurora

4 июня 2015, 07:03

#2

kostyanet:
По-моему гуглю глубоко фиолетовы все эти рекомендации ведущих яндексоидов насчет роботов, сайтмапс и прочей древней лабуды....

Есессно, гугл клал на яндекс:D Однако это не отменяет политики самого google, который жестко наказывает за допущенные огрехи.

kostyanet:
Говорят что только особые метатеги могут упросить гугль не индексировать страницу.

А можно с этого места поподробнее? Речь идет о meta robots в коде html страниц?

C

21

chuvakhlova

4 июня 2015, 07:29

#3

Можете также в вебмастерах гугла попробовать их удалить. Сканирование->Параметры URL->Настройка параметров URL. Там добавляете параметр filter и запрещаете индексирование урлов, содержащих этот параметр. Подробнее тут описано https://support.google.com/webmasters/answer/6080550

183

slaviktorres

4 июня 2015, 07:30

#4

Я уже перестал бороться с гуглом, который индексирует, все, что хочет, закрывай, не закрывай. )

1

D

133

divv

4 июня 2015, 08:37

#5

Настройки файла robots.txt являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их.

https://support.google.com/webmasters/answer/6062608?hl=ru

Чтобы предотвратить появление страницы в результатах поиска Google, вставьте в HTML-код страницы атрибут noindex.

https://support.google.com/webmasters/answer/93710

1

A

55

Aurora

4 июня 2015, 08:57

#6

divv:
https://support.google.com/webmasters/answer/6062608?hl=ru

https://support.google.com/webmasters/answer/93710

Спасибо, изучила эти доки. И тогда встречный вопрос: вставив код с noindex для каждой дублирующей страницы, нужно, соответственно, убрать запреты на индексацию в файле robots.txt. В результате google должен отреагировать, а яндекс?

blogger Гугла Google открыл Friend Connect Переобход удаленных дублей

D

133

divv

4 июня 2015, 09:05

#7

Яндекс тоже реагирует на этот метатег

или для яндекса можно отдельное правило сделать в роботсе

User-agent: Yandex

1

A

55

Aurora

4 июня 2015, 09:59

#8

divv:
Яндекс тоже реагирует на этот метатег

или для яндекса можно отдельное правило сделать в роботсе

User-agent: Yandex

Спасибо, схема понятная и оптимальная. Воспользуюсь.

65

Osan

4 июня 2015, 10:05

#9

А Вы не хотите попробовать добавить в роботс:

Disallow: /*?*

Как по мне синтаксис не правильный:

Disallow: /?start=
Disallow: /*results
Disallow: /*by,mf_name
Disallow: /*?filter_product=

Вообще, я бы рекомендовал отрегулировать все ссылки на плохие адреса - уходит вес со страницы, никакой пользы

Надеюсь это опечатка

site.ru//sankeramika

1

A

55

Aurora

4 июня 2015, 12:59

#10

Osan:
А Вы не хотите попробовать добавить в роботс:

Как по мне синтаксис не правильный:

Не сильна в синтаксисах, составляла robots, ориентируясь на яндекс вебмастер.

Спасибо за дельную подсказку, отлично решился запрет индексации без лишних строк.

Osan:
Вообще, я бы рекомендовал отрегулировать все ссылки на плохие адреса - уходит вес со страницы, никакой пользы

Соглашусь на тысячу процентов, вот, разбираюсь, как оптимально решить вопрос в джумле.

P.S. да, site.ru//sankeramika - это опечатка:)

Яндекс кобласит Упал доход Как удалить картинки из

Зачем быть уникальным в мире, где все можно скопировать

Google: E-E-A-T не является фактором ранжирования