robots.txt для CMS Plaza

G
На сайте с 15.11.2010
Offline
4
913

Возникла необходимость продвигать сайт, написанный на CMS Plaza.

Там следующая проблема:

на сайте страниц мало, всего 50-60, однако в гугле показано, что проиндексировано 160 страниц с этого сайта, не под фильтром всего страниц 15. Посмотрел, что это за страницы. Выяснилось, что на сайте легко можно создавать дубли имеющихся страниц, вбивая несколько раз через слеш уже имеющиеся имена каталогов или даже адрес морды.

Например, есть страница www.******.ru\page\pvd.html

Ее же можно открыть введя в панель навигации адрес

www.******.ru\page\page\pvd.html

или даже

www.******.ru\******.ru\page\******.ru\page\pvd.html

Естественно, я такие страницы через CMS не создавал. Ссылок с такими урлами на сайте тоже нет.

Естественно, такие страницы легко загнать под фильтр за неуник.

Пожаловался разработчикам cms, они написали следующее:

"Дубли не создаются, если клиент сам не создал такой дубль. Поисковик не найдет дубль, если клиент не внес его на сайт. Это GET переменные, на них завязано все модульное ядро CMS. Поэтому ядро сложно в реализации и усложнит доработку системы, если она потребуется "

Разводят на бабки, короче.

Пока что закрыл все дубли костылями через robots.txt через disallow

Однако это не гарантирует от появления новых дублей, их вариантов тьма.

Вопрос: можно ли как-нибудь с помощью переменных (* и $) в том же robots или где-нибудь еще уберечься от появления этих дублей. Как можно запретить, допустим, каталог

page\petrochemistry\page

и

petrochemistry\page

если мне нужен просто один каталог

page\petrochemistry

Закрывать все и потом прописывать нужное через allow?

Или проще сразу начинать конвертировать сайт на другую CMS?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий