Правильный ли robots для dle??

[Удален]
853

Итак, составил робота себе на сайт. Сайт на двиге дле. ПОзапрещал к индексу дублирующие контент страницы. Робот выглядит вот так:

User-agent: *

Disallow: /engine/go.php

Disallow: /engine/download.php

Disallow: /user/

Disallow: /newposts/

Disallow: /statistics.html

Disallow: /*subaction=userinfo

Disallow: /*subaction=newposts

Disallow: /*do=lastcomments

Disallow: /*do=feedback

Disallow: /*do=register

Disallow: /*do=lostpassword

Disallow: /*do=addnews

Disallow: /*do=stats

Disallow: /*do=pm

Disallow: /2013/

Disallow: /tags/

Disallow: /page/

Sitemap: http://site.ru/sitemap.xml

Но есть одна непонятка. Если /page/ запрещает индексировать страницы какого либо раздела, кроме основной, то как он проиндексирует контент на ней??

И вот еще. Если мой сайт забить в гугл,то появляется несколько ссылок запрещенных в роботе с описанием:"Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее..." Они исчезнут потом*????

siv1987
На сайте с 02.04.2009
Offline
427
#1

/page/ лучше убрать.

Slogg:
Но есть одна непонятка. Если /page/ запрещает индексировать страницы какого либо раздела, кроме основной, то как он проиндексирует контент на ней??

Никак. Индексации /page/ не будет. Но бот может добраться на страницах новостей через xml карту или похожих новостей.

Slogg:
И вот еще. Если мой сайт забить в гугл,то появляется несколько ссылок запрещенных в роботе с описанием:"Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее..." Они исчезнут потом*????

Могут исчезнуть, могут не исчезнуть...

[Удален]
#2
siv1987:
/page/ лучше убрать.


Никак. Индексации /page/ не будет. Но бот может добраться на страницах новостей через xml карту или похожих новостей.

Хм. А почему к примеру анализатор яндекса утверждает, что только ссылки вида site.ru/page/ запрещены, а site.ru/catalog/page/ разрешены. То есть ПС Будет индексировать все странички в разделах, но обойдет странички на главной??

Я не просто так хочу добиться идеального робота, а хочу, чтобы яндекс ссылки не выкинул. Читал, что он может такое даже за дубли.

---------- Добавлено 17.04.2013 в 23:01 ----------

siv1987:
Могут исчезнуть, могут не исчезнуть...

Забавно)))

Tvix
На сайте с 23.08.2010
Offline
26
#3

Тс вот какой должен быть Robots.txt

User-agent: *

Disallow: /engine/

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

О что бы закрыть не нужные страницы от индексации сделайте это:

в engine/engine.php

Находим далее:

if ($config['allow_rss']) $metatags .= <<<HTML;

Добавляем выше:

if (

//$do == 'addnews' OR /* Страница добавления новости с сайта */

//$do == 'alltags' OR /* Страница просмотра списка тегов */

//$do == 'feedback' OR /* Страница формы обратной связи */

//$do == 'favorites' OR /* Страницы закладок пользователей */

//$do == 'lastcomments' OR /* Страница просмотра всех последних комментариев на сайте, в т.ч. комментариев отдельного пользователя */

//$do == 'lastnews' OR /* Страница просмотра всех последних новостей */

//$do == 'lostpassword' OR /* Страница восстановления пароля */

//$do == 'pm' OR /* Страницы личных сообщений пользователей */

//$do == 'register' OR /* Страница регистрации нового пользователя */

//$do == 'rules' OR /* Страница правил сайта */

//$do == 'stats' OR /* Страница статистики сайта */

//$do == 'search' OR /* Страница поиска и результатов поиска */

//$do == 'static' OR /* Все статические страницы */

//$do == 'tags' OR /* Просмотр новостей по тегу */

//$do == 'xfsearch' OR /* Просмотр новостей новостей по доп. полям */

//$subaction == 'allnews' OR /* Просмотр всех новостей пользователя */

//$subaction == 'newposts' OR /* Просмотр непрочитанных новостей для пользователя */

//$subaction == 'showfull' OR /* Просмотр полной новости */

//$subaction == 'userinfo' OR /* Просмотр профиля пользователя */

//$dle_module == 'date' OR /* Просмотр архива новостей за год/месяц/день. Заменяет собой сразу все три следующие строки */

//($year != '' and $month == '' and $day == '') OR /* Просмотр архива новостей за год */

//($year != '' and $month != '' and $day == '') OR /* Просмотр архива новостей за месяц */

//($year != '' and $month != '' and $day != '' and $subaction == '') OR /* Просмотр архива новостей за день */

//(intval($_GET['cstart']) > 1 ) OR /* Любые страницы пагинации */

//($dle_module == 'main' and (intval($_GET['cstart']) > 1)) OR /* Страницы пагинации для главной страницы */

//($do == 'cat' and $category != '' and $subaction == '' and (intval($_GET['cstart']) > 1)) OR /* Страницы пагинации только для категорий */

//($do == 'cat' and $category != '' and $subaction == '') OR /* Просмотр любой категории */

//($do == 'cat' and $category_id == 'X' and $subaction == '') OR /* Просмотр определенной категории. X заменить на id категории */

$catalog != '' /* Просмотр каталога по буквенному идентификатору */

) $metatags .= <<<HTML

\n<meta name="robots" content="noindex,nofollow" />

HTML;

Чтобы задействовать определенное правило, следует удалить впереди символ //

Все!

siv1987
На сайте с 02.04.2009
Offline
427
#4
Slogg:
Хм. А почему к примеру анализатор яндекса утверждает, что только ссылки вида site.ru/page/ запрещены, а site.ru/catalog/page/ разрешены.

Потому что /page/ на запрещает /catalog/page/. Для него нужно написать запрет с маской /*/page/

Tvix:
Тс вот какой должен быть Robots.txt

Роботс от алаева. Только сегодня видел вопрос про этот роботс где-то в разделе Любые вопросы.

[Удален]
#5
Tvix:
Тс вот какой должен быть Robots.txt
User-agent: *
Disallow: /engine/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Значение хост разве не только для яшки?? Я где-то целый холивар наблюдал, что если и писать Host: site.ru, то только для яндекс бота

siv1987
На сайте с 02.04.2009
Offline
427
#6
Slogg:
Значение хост разве не только для яшки?? Я где-то целый холивар наблюдал, что если и писать Host: site.ru, то только для яндекс бота

Host только для яшки но под общею секцию, в конце после всех правил.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий