борьба с дублями

B
На сайте с 14.10.2008
Offline
143
445

Из за ошибок в самописанном движке в индекс гугла попала большая куча дублей - это к примеру страницы поиска/тегов, различных пейджингов.

Сегодня провел работу по запрету дублей к индексированию, например добавил в robots.txt

User-agent: *

Disallow: /search/

что б запретить индексацию внутрипоисковой сайтовой выдачи. Поиск на сайте так же используется для системы тегов.

Так же ко всем ссылкам тегов(тобишь поиска) добавил rel="tag nofollow"

к ссылкам пейджинга просто rel="nofollow"

Вопрос - какие следующие действия я должен провести ? Просто все оставить и ждать пока гугл сам перетряхнет/переиндексирует сайт либо же руками в WMT выкидывать дубли из индекса ?

---------- Добавлено 08.11.2012 в 11:38 ----------

Так же сегодня обнаружил, что гугл наделал много дублей с ссылкой капчи

/kcaptcha/index.php?kid=2

например

/kcaptcha/index.php?PHPSESSID=8trfn288tjleh4ppncjkdbqbo6

/kcaptcha/index.php?PHPSESSID=4r7sdvachsjf2ur84vnjs588b5

и т.д.

Я добавил запись Disallow: /kcaptcha/ в robots.txt

Что еще можно предпринять для устранения этой проблемы ?

vagogrande
На сайте с 25.02.2012
Offline
110
#1
brunoid:
Из за ошибок в самописанном движке в индекс гугла попала большая куча дублей - это к примеру страницы поиска/тегов, различных пейджингов.


Что еще можно предпринять для устранения этой проблемы ?

Допиши в движок автоматическую выдачу канонического адреса.

Тогда гугл даст тебе все страницы которые дублирует, как неканонические

Блеск в его глазах был заревом праздничного салюта, которым его тараканы отметили окончательную победу над разумом
[Удален]
#2

Ставить "tag nofollow" и rel="nofollow" для внутренних ссылок, ИМХО, лишнее. От дублей они не уберегут, ведь они, по идее, только на распределение веса влияют.

И станицы (пейджинг) закрывать от индексации не надо. Ведь содержание их, как правило, различается. Лучше просто в титлах и дискрипшинах дописывать соответствующий номер страницы. Хотя, конечно, Вам виднее.

Просто все оставить и ждать пока гугл сам перетряхнет/переиндексирует сайт либо же руками в WMT выкидывать дубли из индекса ?

Гугл сам "перетряхнет/переиндексирует"

LEOnidUKG
На сайте с 25.11.2006
Offline
1771
#3

Disallow: /kcaptcha/

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
B
На сайте с 14.10.2008
Offline
143
#4
vagogrande:
Допиши в движок автоматическую выдачу канонического адреса.
Тогда гугл даст тебе все страницы которые дублирует, как неканонические

Так и поступил неделю назад и проставил канонические адреса. И вот вчера в ВМТ пришло письмо с примерами дубликатов. Сегодня по этому списку расставил rel="nofollow" и rel="tag nofollow"

---------- Добавлено 08.11.2012 в 12:39 ----------

Samovarov:
Лучше просто в титлах и дискрипшинах дописывать соответствующий номер страницы.

именно так и было сделано и вот здесь и появилась серьезная проблема в рамках реализации сайта-пациента.

Например есть торговая марка у которой 1000 продуктов. Каждый продукт имеет свою отдельную страницу и на этой странице кроме остновного описания есть еще список с пейджинатором на все остальные продукты от этого производителя.В итоге получилась арифметическая прогрессия страниц, то есть кол-во продуктов перемножилось на кол-во страниц с пейджингом. Ну и дальше все ушло в сопли и распылило вес.

---------- Добавлено 08.11.2012 в 14:23 ----------

Подскажите еще пожалуйста по mod_rewrite:

как заставить все урл на сайте принудительно завершаться на слеш "/" ? Это существенная проблема когда доступны оба варианта(со слешом и без него) или гугл на это не обращает внимание ?

Так же в robots.txt я бы хотел закрыть все страницы которые как часть своего урл имеют параметр:

"/?dp="

например:

/catalog/item/some-product-name/?dp=7#developer

как правильно указать маску для всех таких страниц в robots.txt ?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий