Помогите с "тактикой" для удаления дублей

СК
На сайте с 25.01.2014
Offline
27
547

Здравствуйте! Подскажите как лучше сделать.

Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки

Disallow: /*&SECTION_ID=*

Disallow: /*/search/*

Disallow: /*PAGEN_17*

Disallow: /*back_url_admin=*

1. Чтобы избавиться от дублестраниц вида:

mysite.ru/novosti-inform/?ID=92&SECTION_ID=17

mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100

здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также»

2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида:

mysite.ru/search/?tags=литература

mysite.ru/search/?q=&where=&tags=литература&how=d

3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого:

mysite.ru/novosti-inform/?PAGEN_17=5

mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2

4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо:

mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes

Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы.

PEG
На сайте с 15.01.2006
Offline
147
PEG
#1

Рассмотрите вариант "запретить индексацию всего, кроме:...". Такое тоже бывает, применяют в robots.txt :-)

Хочешь стать №1 в своей нише? Легко! Раздавим всех твоих конкурентов тоннами HQ-трафика из digital-рекламы. Пиши в личку.
F
На сайте с 16.11.2012
Offline
56
#2

По первому пункту.

Для яндекса можно применить директиву Clean-param к ненужным переменным в GET

User-agent: Yandex

Clean-param: SECTION_ID/sphrase_id

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param

В вебмастере google Сканирование -> Параметры URL запретить эти переменные к индексированию.

СК
На сайте с 25.01.2014
Offline
27
#3

Спасибо за подсказку, да еще с ссылкой.

1). Из хэлпа понял, что если прописать

User-agent: Yandex

Clean-param: SECTION_ID

Clean-param: sphrase_id

То будет очищены (проигнорированы поисковиками новые и исключены из базы старые) все урлы дополнительно содержащие указанные переменные, вместе с их многочисленными значениями.

То, что Вы написали Clean-param: SECTION_ID/sphrase_id - это просто объединение двух строк в одну или несет какое то еще значение?

А если я туда же допишу?

Clean-param: PAGEN_17

Clean-param: PAGEN_1 (этот тоже иногда создается, хотя в индексе их не нашел)

Clean-param: back_url_admin

2). В ГуглоМастере захожу, по указанному Вами пути и для всех пяти переменных выставляю вместо «На усмотрение робота Googlebot» вариант «Нет параметр не влияет на содержание страницы». Правильно?

3). В рекомендациях на блогах, часто встречается, что директивы для Яндекса надо прописывать отдельно, не в столбце с User-agent: * а именно User-agent: Yandex, это так серьезно?

F
На сайте с 16.11.2012
Offline
56
#4

Все верно, единственное, не уверен насчет PAGEN_Х. Не знаком со структурой битрикса.

СК
На сайте с 25.01.2014
Offline
27
#5

Спасибо, 90% урловых дублей эти два правила охватят, а PAGEN_17 это вот тут образуются http://medalirus.ru/novosti-inform/ постраничная "листалка" внизу столбца анонсов, там 100% повторение анонсов со всех страниц этого раздела, польза для индексации и трафика нулевая, но и вреда не много, так как их чуть больше 10 шт., но это пока правда.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий