Помогите с "тактикой" для удаления дублей

73

Сергей_К

25 января 2014, 17:10

785

Здравствуйте! Подскажите как лучше сделать.

Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки

Disallow: /*&SECTION_ID=*

Disallow: /*/search/*

Disallow: /*PAGEN_17*

Disallow: /*back_url_admin=*

1. Чтобы избавиться от дублестраниц вида:

mysite.ru/novosti-inform/?ID=92&SECTION_ID=17

mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100

здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также»

2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида:

mysite.ru/search/?tags=литература

mysite.ru/search/?q=&where=&tags=литература&how=d

3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого:

mysite.ru/novosti-inform/?PAGEN_17=5

mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2

4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо:

mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes

Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы.

164

PEG

25 января 2014, 17:22

#1

Рассмотрите вариант "запретить индексацию всего, кроме:...". Такое тоже бывает, применяют в robots.txt :-)

Знаю всё про Digital Marketing (https://www.mrkt.ng), помогаю в инвестициях у брокера (https://www.positive-x.net), разиваю свой Q&A сервис (https://emmabot.com).

F

56

fmex

25 января 2014, 17:29

#2

По первому пункту.

Для яндекса можно применить директиву Clean-param к ненужным переменным в GET

User-agent: Yandex

Clean-param: SECTION_ID/sphrase_id

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param

В вебмастере google Сканирование -> Параметры URL запретить эти переменные к индексированию.

СК

73

Сергей_К

26 января 2014, 06:11

#3

Спасибо за подсказку, да еще с ссылкой.

1). Из хэлпа понял, что если прописать

User-agent: Yandex

Clean-param: SECTION_ID

Clean-param: sphrase_id

То будет очищены (проигнорированы поисковиками новые и исключены из базы старые) все урлы дополнительно содержащие указанные переменные, вместе с их многочисленными значениями.

То, что Вы написали Clean-param: SECTION_ID/sphrase_id - это просто объединение двух строк в одну или несет какое то еще значение?

А если я туда же допишу?

Clean-param: PAGEN_17

Clean-param: PAGEN_1 (этот тоже иногда создается, хотя в индексе их не нашел)

Clean-param: back_url_admin

2). В ГуглоМастере захожу, по указанному Вами пути и для всех пяти переменных выставляю вместо «На усмотрение робота Googlebot» вариант «Нет параметр не влияет на содержание страницы». Правильно?

3). В рекомендациях на блогах, часто встречается, что директивы для Яндекса надо прописывать отдельно, не в столбце с User-agent: * а именно User-agent: Yandex, это так серьезно?

Директива Clean-param в robots.txt Директива Clean-param (не боян?)) Критическая ошибка Найдены страницы-дубли

F

56

fmex

26 января 2014, 06:40

#4

Все верно, единственное, не уверен насчет PAGEN_Х. Не знаком со структурой битрикса.

СК

73

Сергей_К

26 января 2014, 09:02

#5

Спасибо, 90% урловых дублей эти два правила охватят, а PAGEN_17 это вот тут образуются http://medalirus.ru/novosti-inform/ постраничная "листалка" внизу столбца анонсов, там 100% повторение анонсов со всех страниц этого раздела, польза для индексации и трафика нулевая, но и вреда не много, так как их чуть больше 10 шт., но это пока правда.

Я не выводит описание Оптимизация интернет-магазина Любит ли Яндекс обновление

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, если ваша email-рассылка попала в спам