вопрос по robots.txt

FlooPy
На сайте с 09.11.2009
Offline
110
655

Как в robots.txt убрать из индекса страницы которые заканчиваются на tmpl=component&print=1

В смысле есть страница к примеру:

sait.ru/blabla

и к ней клеятся дубли:

sait.ru/blabla&tmpl=component&print=1

Как правильно убрать дубли?

siv1987
На сайте с 02.04.2009
Offline
427
#1

Disallow: /*tmpl=component&print=1

LovelAss
На сайте с 05.06.2009
Offline
96
#2

Disallow: /*tmpl=component&print=1$

Sanello
На сайте с 28.03.2012
Offline
45
#3

По всей видимости вам поможет 9 пункт

Директива Clean-param

Если адреса страниц вашего сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123

www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123


параметр 'ref=' используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой 'book_id=123'. Тогда, если в robots.txt указать:

Clean-param: ref /some_dir/get_book.pl


Вот так:

User-agent: Yandex

Disallow:
Clean-param: ref /some_dir/get_book.pl


Робот Яндекса сведет все адреса страницы к одному:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,


Если на сайте доступна страница без параметров:

www.site.ru/some_dir/get_book.pl?book_id=123


То все сведется именно к ней, когда она будет проиндексирована роботом. Другие страницы вашего сайта будут обходиться чаще, так как нет необходимости обновлять страницы:

www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123

www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123
FlooPy
На сайте с 09.11.2009
Offline
110
#4
Sanello:
По всей видимости вам поможет 9 пункт

Извините, а можете еще подсказать. Если у меня страница в виде:

/index.php?option=com_k2&view=item&id=200:blablabla&Itemid=2

Все что после /index.php?option=com_k2&view=item&id=200 не имеет значения и может часто меняться, но контент останется тот же. Как быть в этом случае?

ValdisRu
На сайте с 02.10.2006
Offline
139
#5
FlooPy:
Извините, а можете еще подсказать. Если у меня страница в виде:
/index.php?option=com_k2&view=item&id=200:blablabla&Itemid=2

Все что после /index.php?option=com_k2&view=item&id=200 не имеет значения и может часто меняться, но контент останется тот же. Как быть в этом случае?

в том то и дело что данные конструкции урлов можно представить самыми разными способами

/index.php?option=com_k2&view=item&id=200&Itemid=2 - это ти правильно далее вариации

1) /index.php?blablabla&option=com_k2&view=item&id=200&Itemid=2

2) /index.php?option=com_k2&blablabla&view=item&id=200&Itemid=2

3) /index.php?option=com_k2&view=item&blablabla&id=200&Itemid=2

4) /index.php?option=com_k2&view=item&id=200&blablabla&Itemid=2

5) /index.php?option=com_k2&blablabla&view=item&id=200&blablabla&Itemid=2

6) /index.php?option=com_k2&blablabla&view=item&blablabla&id=200&Itemid=2

7) /index.php?option=?blablabla&com_k2&view=item&id=200&Itemid=2

8) /index.php?option=?com_k2&blablabla&view=item&&blablablaid=200&blablabla&Itemid=2

9) /index.php?option=?com_k2&blablabla&view=item&blablabla&id=200&blablabla&Itemid=2&blablabla

10) /index.php?option=?blablabla&com_k2&blablabla&view=item&blablabla&id=200&blablabla&Itemid=2&blablabla

и это еще не все, тут вариаций может быть намного больше, имхо самый правильный путь это включить ЧПУ, вроде джумла его поддерживает, а все урлы, содержащие ? запретить в роботс.тхт

типа так

Disallow: *?

Обалденный заработок на социальных сетях (https://goo.gl/Qtsq6M)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий