Форум Практика оптимизации Общие вопросы оптимизации

Регулярные выражения в robots.txt и Yandex

131

Dexter88

23 марта 2010, 14:58

6635

Статья для тех, кто не в теме и естественно для новичков

Недавно столкнулся с оптимизацией сайта на движке Danneo CMS, проблема была в том, что в индексе было очень много дублей страниц, которые представляли из себя "версию для печати".

Я попытался решить эту проблему при помощи файла robots.txt и регулярных выражений. О том, что регулярные выражения поддерживаются роботом Яндекса, я узнал из хелпа Яндекса:

Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'

Полный мануал

Далее имеем вид урла "версия для печати", который надо закрыть от индексации: index.php?dn=vacancies&re=print&id=170.

Проблема в том, что он не значительно отличается от урла материала на сайте. Тогда следует выделить отличительную часть, в моём случае отличается от материала на сайте часть: re=print.

Соответственно указываем роботу Яндекса в файле robots инструкцию по обработке урлов, которые будут содержать часть: re=print (версия для печати).

Выглядеть она будет след, образом:

Disallow: /*re=print*

Далее, чтобы проверить корректность составленного нами файла robots и убедиться, что все не нужные страницы закрыты от робота, а все полезные страницы доступны для индексации идем в панель Веб-мастера.

Настройка индексирования->Анализ robots.txt, нажимаем кнопку "загрузить файл robots.txt с сайта", далее добавляем урлы, которые должны индексироваться, после проверки должны получить ответ: "разрешен".

И проверяем страницы, которые не должны индексироваться (в нашем случае страницы с версией для печати), после проверки должны получить ответ: "запрещен правилом /*re=print*"

Таким образом можно убрать дубли страниц из индекса. Без затрат на программиста, без значительных временных затрат, если сидеть в движке самому и пытаться отключить модуль версии для печати.

Drive-Tube.Ru - Все о твоем настоящем и будущем авто! (http://drive-tube.ru)

Дзен реализовал для авторов возможность вывода денег через СПБ

Все что нужно знать о DDоS-атаках грамотному менеджеру

Регулярные выражения в robots.txt и Yandex