Составляю robots.txt для DLE, есть вопросы

HS
На сайте с 17.04.2009
Offline
17
969

Здравствуйте!

Составляю robots.txt для DLE, есть вопросы. Если я правильно понимаю, то в индексе желательно, чтобы были только страницы, которые несут в себе ценный контент. В случае DLE это:

- главная страница;

- категории;

- новости.

Если я правильно размышляю, то нужно закрыть от индексации /backup/, /catalog/, /engine/, /favorites/, /language/, /lastnews/, /newposts/, /tags/, /templates/, /uploads/, /user/, /*page/ и технические страницы движка, как /admin.php и прочие. Особое внимание прошу обратить на /user/ и /*page/. С /user/ понятно, давно уже многие закрывают профили от индексации, они могут содержать всякий мусор, а также в каждом профиле есть ссылка для просмотра новостей пользователя и если новостей много, то появляются страницы /*/page/*, на который, по сути, дублируется контент. Страницы типа /*/page/* также есть в различных категориях на сайте и даже на главной странице.

Вопрос 1: Нужно ли запрещать индесировать страницы типа /*/page/* в robots.txt?

Вопрос 2: Все правила можно обобщить, как для User-agent: * с указанием Host и Sitemap или стоит сделать User-agent: *, User-agent: Yandex и, к примеру, еще User-agent: Slurp?

Заранее благодарен.

G7
На сайте с 30.04.2010
Offline
1
#1

А разве ДЛЕ по дефолту не создает robots.txt? Странно. В любом случае, не нужно все страницы закрывать, думаю, в этом нет смысла просто.

Вопрос 2: Все правила можно обобщить, как для User-agent: * с указанием Host и Sitemap или стоит сделать User-agent: *, User-agent: Yandex и, к примеру, еще User-agent: Slurp?

Можно обобщить. Пример http://help.yandex.ru/webmaster/?id=996567

User-agent: *

Disallow: /

Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml

Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

По каталогам делайте запрет так:

User-agent: *

Disallow: /private/

это будет запрет доступа роботов к каталогу /private/

HS
На сайте с 17.04.2009
Offline
17
#2

По дефолту не создает.

siv1987
На сайте с 02.04.2009
Offline
427
#3

1. Не стоит. Етим вы запретите боту ходить по номерам страницы сайта /pages/2/, /pages/3/.

Все равно там инфа будет обновляться, да и основной контент у вас должен лежать в самих темах.

2. Можно под один user-agent.

solt
На сайте с 22.04.2008
Offline
39
#4

Тоже хотел по экспериментировать с /pages/*/ с помощью роботс.тхт. Т.к. у этих страниц полезность информации стремиться к нулю (в случае если ресурс обновляемый!).

А вот как сделать чтобы робот по ним ходит а в индекс не принимал?

siv1987
На сайте с 02.04.2009
Offline
427
#5
solt:
Тоже хотел по экспериментировать с /pages/*/ с помощью роботс.тхт. Т.к. у этих страниц полезность информации стремиться к нулю (в случае если ресурс обновляемый!).
А вот как сделать чтобы робот по ним ходит а в индекс не принимал?

<meta name="robots" content="noindex,follow">

L
На сайте с 15.01.2008
Offline
112
#6
/admin.php

- особенно это жирным курсивом 7-го размера напишите,чтоб весь мир знал где Ваша админка...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий