Как правильнее избавиться от дублей страниц

Антоний Казанский
На сайте с 12.04.2007
Offline
786
#31
Александр Воробьев :
Итак ситуация: Яша сообщает о наличии дублей страниц. Например  mysite.com и mysite.com/?     т.е. знак вопроса  - без параметров (откуда он вылезает, на нескольких проектах попросили разобраться, достоверно не знаю).

Если есть внешние обращения по указанные адресам, то в случае привязанной Метрики она будут передавать данные адреса для индексации.

Робот приходит по данным адресам, получает 200-е ответы от сервера и индексирует полученные документы (очевидно это будут дубли). Потом в большинстве случаев как дубли выбрасывает.


Александр Воробьев :
1. Добавлять тег cannonical.   как я понимаю, он решает проблему но не полностью: этот грязный урл можно сохранить в закладки, зашарить в соцсетях. А так же, если я правильно понимаю,  в метрике в статистике все равно это как отдельный URL

Корректный canonical в любом случае лучше выводить в мета информации, но это лишь рекомендация для Яндекса это не является руководствующим решением (Яндекс может занести в индекс страницу и вопреки данным canonical).

В этом случае для подобных адресов (и остальных с get параметрами) выводить:

<meta name="robots" content="follow, noindex" />

и дублируются страницы с адресацией ../*?* не будут индексироваться.

А отдельные get парамеtтры потом описать в robots.txt директивой Clean-param. Тогда Яндекс и не будет ходить по ненужным адресам.


Александр Воробьев :
2. robots.txt - так же избранное и ссылки. Как в этом случае с точки зрения метрики это в итоге выглядит,  там только в индекс не включит, но увидит как отдельную страницу?

Нередко адреса вида /*?* запрещают в robots.txt, выше вам об этом уже подсказали.


Александр Воробьев :
3. Настроить редирект 301.   

Не надо.

Все рабочие адреса с get параметрами, в частности utm метки, сортировки по признакам внутри сайта, которые используются адресацию с get параметрами должны корректно работать.


big boy #:
С точки зрения Chief Executive Officer лучше заниматься стратегическим развитием компании, управлением ресурсами и финансовыми показателями.

Cовершенно верное и уместное замечание.


Махмуд Аббас #:
Выпендрился, смотрите-ка на него.

А вот это систематическое хамство и повторяющиеся провокации от данного пользователя надо жестко пресекать.

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Разговоры о SEO и не только: культурно, вежливо, доброжелательно ► https://t.me/seotusovochka
Антоний Казанский
На сайте с 12.04.2007
Offline
786
#32
Александр Воробьев #:
В том то и дело, что параметров нет. Речь об этом случае: когда только знак вопроса  и все....

Нужно учитывать, что для в рекламных кампаний могут использоваться UTM метки, которые и состоят из GET параметров.

Подобные адреса должны работать без осложнений и не пересекаться с правилами редиректов.

Опять же выше резонно указали - случаев когда в адресах может появляться ?=что_угодно_  - может быть бесконечное множество. Вы будете вылавливать эти адреса и составлять новые правила редиректов? Это будет утомительный бесконечный процесс.

Проще и правильнее сообщить ПС не индексировать подобные адреса. И вопрос снимается.


Александр Воробьев #:

Есть второй сайт мегаппопулярный ресурс. На этом сайте некто Вася размещает ссылку на обсуждаемый сайт и по доброте или умышленно забывает "?" . Получается site1.com/?   . По этой ссылке пошел толпами народ.

Метрика ведь заметит эту ссылку?

Да.


Александр Воробьев #:
Метрика будет считать дублем для реально существующей главной страницы "обсуждаемого сайта"?

Метрика не определяет дубли, дубли фиксируют поисковые анализаторы, а информация по дублям и по обходам поискового робота выводится в Я.Вебмастере.

S3
На сайте с 29.03.2012
Offline
366
#33
Александр Воробьев #:
Да даже из логики: нафига поднимать ядро, какое бы шустрое оно ни было, пробегаться по все правилам роутов? 

Потому что сегодня ты ловишь одно, завтра вылезет еще что-то опять будешь правит нжинксы, роботсы?
Правильные роуты это фиксят и никак тут РПС не помешает

Vladimir
На сайте с 07.06.2004
Offline
614
#34
Sly32 #:
Потому что сегодня ты ловишь одно, завтра вылезет еще что-то опять будешь правит нжинксы, роботсы?
сразу закрыть все религия не позволяет?)
Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
Александр Воробьев
На сайте с 03.02.2020
Offline
55
#35
Sly32 #:
Потому что сегодня ты ловишь одно, завтра вылезет еще что-то опять будешь правит нжинксы, роботсы?
Правильные роуты это фиксят и никак тут РПС не помешает

Все по ситуации. В данном случае вполне конкретный случай.

RPS им не помешает, а вот наоборот вполне себе может. (хотя конечно всегда можно взять и еще один сервер воткнуть :) )  Понятно что если рассматривать отдельно - тут время ответа "ни о чем". Естественно я не сторонник захламлять конфиг nginx и апача. Но и все в код тащить не вижу смысла.

pavlkonst
На сайте с 22.05.2025
Offline
12
#36

Единственное верное и полное решение это 301 редирект на уровне веб-сервера (Nginx/Apache). Он решает сразу все проблемы:

- склеивает ссылочный вес для поисковиков

- исправляет URL для пользователя, который сохранит его в закладки

- нормализует адреса для систем аналитики

Canonical это лишь рекомендация для поисковика, а robots.txt вообще не для этого

Vladimir SEO
На сайте с 19.10.2011
Offline
2044
#37
pavlkonst #:
Canonical это лишь рекомендация для поисковика
для полных дублей она работает, пока работает. 
pavlkonst #:
склеивает ссылочный вес для поисковиков
канон тоже самое делает. 
Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/
Антоний Казанский
На сайте с 12.04.2007
Offline
786
#38
pavlkonst #:
Единственное верное и полное решение это 301 редирект на уровне веб-сервера (Nginx/Apache). Он решает сразу все проблемы:

Вы не встречались со случаями когда в Вебмастере появляются адреса вида ../*?=несуществующие_адреса ?

Даже на форуме обсуждались эти темы и на моей памяти раза три. Иногда их даже намеренно генерируют, чтобы спровоцировать дубли и тем самым навредить индексу сайта через дублирование.

Так что насчёт полного решения я бы оспорил.


pavlkonst #:
- склеивает ссылочный вес для поисковиков

Этот вес как правило "ошибочный". Если мы говорим о каких-то рабочих случаях, когда этот передаваемый вес важен, то в данном случае SEO специалист должен связаться с администратором донорского сайта и попросить исправить ссылку (когда это возможно).


pavlkonst #:
- исправляет URL для пользователя, который сохранит его в закладки

Это скорее как следствие неправильно установленной ссылки.

Живой пользователь и не должен попадать на сайт по ошибочным адресам (это я к тому, что по легитимным источникам такие адреса надо исправлять).


pavlkonst #:
- нормализует адреса для систем аналитики

C точки зрения аналитики это просто ошибочный адрес, но формально я с вами согласен.


pavlkonst #:
Canonical это лишь рекомендация для поисковика, а robots.txt вообще не для этого

Но вы забыли про meta robots который одинаково корректно работает и в Яндексе, и в Гугле.  

богоносец
На сайте с 30.01.2007
Offline
774
#39
Александр Воробьев #:
Какая цель правильная. Т.е. это ведь по факту одна и та же страница

Для человека. Но для ботов это разные урлы, которые им приходится запрашивать / индексить при ответе 200 ... расходовать на дубли свой драгоценный траф.

Правильная цель - отдавать боту только единственный урл / экономить его ресурсы... и каноникал эту проблему не решит.

Александр Воробьев #:

почитай уже внимательно вопрос! 

1 Речь о ссылка размещенных на других сайта

 Вопрос всеми прочитан / сочтён слишком узколобым / не решающим всего вороха проблем движка.

Можно поставить сцылку с матом после ?


Vladimir SEO #:
для полных дублей она работает

 Ну добавится на / новость, бот зайдёт на дубль ... и не сочтёт дублем. Так его слобали.

Vladimir SEO
На сайте с 19.10.2011
Offline
2044
#40
богоносец #:
бот зайдёт на дубль ... и не сочтёт дублем.
на "/" ? или что не сочтет дублем ? 

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий