Дубли страниц из-за лишнего параметра в GET запросе

44

Floston

16 марта 2009, 08:00

728

Здравствуйте !

Тут в wmconsole для одного из своих сайтов обнаружил, что в индексе есть несколько десятков копий главной страницы. Они все имеют вид www.mysite.ru/?p=1...N, но для вывода главной страницы изначально не требуется передача параметров через GET вообще.

Мне не удалось обнаружить ни одной внутренней ссылки на такие страницы (ну мало ли какой программный глюк выявился), ни внешних... В Гугле таких страниц в индексе не замечено.

Следовательно, можно предположить, что они были добавлены вручную через форму добавления Яндекса, и не просто так, а с неким нехорошим умыслом.

Кто-нибудь сталкивался с таким явлением ? Насколько это может негативно сказаться на сайте с точки зрения ПС ?

Видимо, лучшим способом для предотвращения этого было бы обрабатывать get-запрос на уровне CMS (т.е. для каждого модуля иметь массив разрешенных параметров и в случае появления лишних выдавать 404 ошибку). Но если такой функциональности нет (кстати, а кто подскажет, в каких cms это реализовано ?), то придется вылавливать такие страницы и через robots.txt запрещать , а это может быть довольно трудоемкой задачей.

Или может проблема надумана ?

163

IRREWERSIBLE

16 марта 2009, 08:09

#1

сталкивался.

В роботсе пропишите:

Disallow: /?

skype andreylaki1984

F

44

Floston

16 марта 2009, 08:34

#2

IRREWERSIBLE:
сталкивался.

а как-то негативно это повлияло ?

IRREWERSIBLE:
В роботсе пропишите:
Disallow: /?

В данном случае так и сделал.

Главное, чтобы "левый" параметр не подмешивался к страницам, у которых есть еще и свои параметры, да и если название "левого" параметра заранее неизвестно, то все будет несколько сложнее.

65

xant

16 марта 2009, 08:36

#3

Скорее всего у вас что-то вроде блога/новостного сайта, или по крайней мере движок от такого сайта. ?p1..N это страницы с более старыми новостями.

Эксклюзивные сайты и веб-2.0 приложения под ключ. Дорого.

Б

200

Беобахтер

16 марта 2009, 08:53

#4

Floston, сделайте сначала карту своего сайта какой-либо онлайн-утилитой или граббером сайтов типа Телепорта. Если Вы уверены, что Ваша CMS не генерит таких url, то можете использовать в robots.txt введённый Яндексом специально для таких целей параметр Clean-param. В отличие от предложенного выше Disallow: /? Вы сохраните возможность иметь страницы с другими параметрами.

Будь мудрее. Выгляди глупее.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

159

kav

16 марта 2009, 09:31

#5

ну и неольшое дополнение к Беобахтер - http://help.yandex.ru/webmaster/?id=996567#1041216

все подробно написано :)))

Я знаю только то, что ничего не знаю © Сократ а когда я забываю даже это, вспоминаю про..... Форум - это такое место, где 2-е людей могут убедить в своих заблуждениях тысячи

F

44

Floston

16 марта 2009, 09:38

#6

kav:
ну и неольшое дополнение к Беобахтер

все подробно написано :)))

Жаль, что эту директиву только яндекс поддерживает.

А у гугла свое решение http://www.mattcutts.com/blog/canonical-link-tag/

Б

200

Беобахтер

16 марта 2009, 09:55

#7

Floston, спасибо. На мой взгляд, вариант с директивой ещё и удобнее, при этом сохраняет гибкость.

Google: E-E-A-T не является фактором ранжирования

Переиграть и победить: как анализировать конкурентов для продвижения сайта