Правильно закрыть в robots.txt метки отслеживания

Dr.BoT
На сайте с 23.09.2004
Offline
167
6687

По данной теме есть устаревший топик /ru/forum/537139

Но мой вопрос именно по закрытию от индексации меток, таких как ?utm_source и пр.

Что ввело в замешательство: наткнулся на несколько "авторитетных" сайтов, которые решили эту задачу разными путями.

Сначала прочитал вот это:

The first version of the Robot Exclusion standard does not mention anything about the "*" character in the Disallow: statement. Some crawlers like Googlebot and Slurp recognize strings containing "*", while MSNbot and Teoma interpret it in different ways.

Потом проверил некоторые известный своими оптимизаторскими достижениями сайты:

http://bdbd.ru/robots.txt

Disallow: /*?_openstat

Disallow: /*?from=begun

Disallow: /*?banner_id

http://maulnet.ru/robots.txt

Disallow: /*?utm_source*

Disallow: /*?utm_content*

А викимарт пошел своим путем http://wikimart.ru/robots.txt

Disallow: *utm_source*

Disallow: *utm_medium*

Disallow: *utm_campaign*

Disallow: *utm_content*

--

И все же, какой способ лучше, вернее и рекомендуется к использованию?

R
На сайте с 06.07.2011
Offline
3
#1

Clean-param: utm_source /путь/*.html

K
На сайте с 31.01.2001
Offline
737
#2
Dr.BoT:
И все же, какой способ лучше, вернее и рекомендуется к использованию

Сначала вы должны себе выписать примеры урлов, которые нужно запретить.

А потом убедиться, что любой из способов их запрещает.

Нюансы есть, но они не влияют.

Читайте help.yandex.ru - мать вашу и помощницу.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
A
На сайте с 17.05.2010
Offline
25
#3

Если адресация на сайте полностью ЧПУ, без get параметров в публичной части (админку ведь нам не нужно индексить, да и в целом страницы с заказами, если ИМ, и страницы поиска ?search=q и т.д.), то можно смело поступить так:

Disallow: /*?

Если адресация смешанная или вся на Гетах - то переписать все возможные параметры и запреить любым из способов, приведённых вами.

Dr.BoT
На сайте с 23.09.2004
Offline
167
#4
artboldyrev:
Если адресация на сайте полностью ЧПУ, без get параметров в публичной части (админку ведь нам не нужно индексить, да и в целом страницы с заказами, если ИМ, и страницы поиска ?search=q и т.д.), то можно смело поступить так:
Disallow: /*?

Если адресация смешанная или вся на Гетах - то переписать все возможные параметры и запреить любым из способов, приведённых вами.

Ваш способ, наверное, подойдет. Сайт весь на ЧПУ.

Используя Disallow: /*? любая ссылка имеющая /?blabla не будет индексироваться и робот по ней не пойдет?

R
На сайте с 06.07.2011
Offline
3
#5
Dr.BoT:
Используя Disallow: /*? любая ссылка имеющая /?blabla не будет индексироваться и робот по ней не пойдет?

Ссылка содержащая "?" не будет индексироваться.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий