Составляю robots.txt для DLE, есть вопросы

17

Homo sapiens

7 мая 2010, 14:58

969

Здравствуйте!

Составляю robots.txt для DLE, есть вопросы. Если я правильно понимаю, то в индексе желательно, чтобы были только страницы, которые несут в себе ценный контент. В случае DLE это:

- главная страница;

- категории;

- новости.

Если я правильно размышляю, то нужно закрыть от индексации /backup/, /catalog/, /engine/, /favorites/, /language/, /lastnews/, /newposts/, /tags/, /templates/, /uploads/, /user/, /*page/ и технические страницы движка, как /admin.php и прочие. Особое внимание прошу обратить на /user/ и /*page/. С /user/ понятно, давно уже многие закрывают профили от индексации, они могут содержать всякий мусор, а также в каждом профиле есть ссылка для просмотра новостей пользователя и если новостей много, то появляются страницы /*/page/*, на который, по сути, дублируется контент. Страницы типа /*/page/* также есть в различных категориях на сайте и даже на главной странице.

Вопрос 1: Нужно ли запрещать индесировать страницы типа /*/page/* в robots.txt?

Вопрос 2: Все правила можно обобщить, как для User-agent: * с указанием Host и Sitemap или стоит сделать User-agent: *, User-agent: Yandex и, к примеру, еще User-agent: Slurp?

Заранее благодарен.

G7

1

gektor7

7 мая 2010, 15:08

#1

А разве ДЛЕ по дефолту не создает robots.txt? Странно. В любом случае, не нужно все страницы закрывать, думаю, в этом нет смысла просто.

Вопрос 2: Все правила можно обобщить, как для User-agent: * с указанием Host и Sitemap или стоит сделать User-agent: *, User-agent: Yandex и, к примеру, еще User-agent: Slurp?

Можно обобщить. Пример http://help.yandex.ru/webmaster/?id=996567

User-agent: *

Disallow: /

Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml

Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

По каталогам делайте запрет так:

User-agent: *

Disallow: /private/

это будет запрет доступа роботов к каталогу /private/

HS

17

Homo sapiens

7 мая 2010, 16:26

#2

По дефолту не создает.

427

siv1987

7 мая 2010, 21:04

#3

1. Не стоит. Етим вы запретите боту ходить по номерам страницы сайта /pages/2/, /pages/3/.

Все равно там инфа будет обновляться, да и основной контент у вас должен лежать в самих темах.

2. Можно под один user-agent.

39

solt

8 мая 2010, 03:25

#4

Тоже хотел по экспериментировать с /pages/*/ с помощью роботс.тхт. Т.к. у этих страниц полезность информации стремиться к нулю (в случае если ресурс обновляемый!).

А вот как сделать чтобы робот по ним ходит а в индекс не принимал?

Страница просканирована, но пока Агрегаторы не индексируются? Яндекс кобласит

427

siv1987

9 мая 2010, 12:21

#5

solt:
Тоже хотел по экспериментировать с /pages/*/ с помощью роботс.тхт. Т.к. у этих страниц полезность информации стремиться к нулю (в случае если ресурс обновляемый!).
А вот как сделать чтобы робот по ним ходит а в индекс не принимал?

L

112

lpcard

9 мая 2010, 12:41

#6

/admin.php

- особенно это жирным курсивом 7-го размера напишите,чтоб весь мир знал где Ваша админка...

Open AI тестирует память для ChatGPT

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы