Что лишнее в моём robots.txt

WebMage
На сайте с 17.08.2011
Offline
147
1196

У меня молодой (2.5 мес) сайт на DLE 9.4 и прикрученный к нему форум от LogicBoard (http://site.ru/forum/), после того как я увидел в выдаче ПС страницы с профилями и прочим хламос, решил оптимизировать robots.txt и вот что у меня получилось

User-agent: *
Disallow: /*print
Disallow: /*userinfo
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /cache/
Disallow: /online/
Disallow: /cgi-bin/
Disallow: /components/
Disallow: /logs/
Disallow: /files/
Disallow: /fotos/
Disallow: /favorite/
Disallow: /subscribe/
Disallow: /options/
Disallow: /all_topics/
Disallow: /all_posts/
Disallow: /warning/
Disallow: /pm/
Disallow: /moderators/
Disallow: /search/
Disallow: /last_topics/
Disallow: /topic_active/
Disallow: /last_posts/
Disallow: /edit_status/
Disallow: /warning_add/
Disallow: /notice/
Disallow: /index.php?subaction=userinfo
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /backup/
Disallow: /engine/
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /index.php?do=rules
Disallow: /rules.html
Host: -------- (адрес стёр)
Sitemap: ------- (адрес стёр)

User-agent: Yandex
Disallow: /*print
Disallow: /*userinfo
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /cache/
Disallow: /online/
Disallow: /cgi-bin/
Disallow: /components/
Disallow: /logs/
Disallow: /files/
Disallow: /fotos/
Disallow: /favorite/
Disallow: /subscribe/
Disallow: /options/
Disallow: /all_topics/
Disallow: /all_posts/
Disallow: /warning/
Disallow: /pm/
Disallow: /moderators/
Disallow: /search/
Disallow: /last_topics/
Disallow: /topic_active/
Disallow: /last_posts/
Disallow: /edit_status/
Disallow: /warning_add/
Disallow: /notice/
Disallow: /index.php?subaction=userinfo
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /backup/
Disallow: /engine/
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /index.php?do=rules
Disallow: /rules.html
Host: -------- (адрес стёр)
Sitemap: ------- (адрес стёр)

Помогите пожалуйста советом, что лишнее, от чего можно избавиться в robots.txt и что наоборот можно добавить?

CO
На сайте с 01.04.2012
Offline
22
#1

Disallow: /2009/

Disallow: /2010/

Disallow: /2011/

Disallow: /2012/

Disallow: /2013/

С этого можно оставить только

Disallow: /2012/

Disallow: /2013/

Disallow: /page/ - это можеш добавить против дублей( закрывает: страница1,2,3 и т.д.)

E2
На сайте с 15.12.2006
Offline
128
#2

Всегда удивляло, зачем для Яндекса дублируют все поля?

Я всегда делал общий список, внизу сайтмап и хост.

Ап! И тигры у ног моих сели.
bon_eur
На сайте с 09.06.2012
Offline
40
#3
WebMage:
Помогите пожалуйста советом, что лишнее, от чего можно избавиться в robots.txt и что наоборот можно добавить?

Если вы просто повторили для робота Яндекса исключения (я не сравнивал построчно весь длинный список), то зря. Достаточно написать один раз для User-agent: *.

---------- Добавлено 02.07.2012 в 01:45 ----------

error2k:
Всегда удивляло, зачем для Яндекса дублируют все поля?

Особенно уважают? ;)

WebMage
На сайте с 17.08.2011
Offline
147
#4

Сделал сейчас такой robots.txt:

User-agent: *
Disallow: /*print
Disallow: /*userinfo
Disallow: /2012/
Disallow: /2013/
Disallow: /cache/
Disallow: /online/
Disallow: /cgi-bin/
Disallow: /components/
Disallow: /page/
Disallow: /logs/
Disallow: /files/
Disallow: /fotos/
Disallow: /favorite/
Disallow: /subscribe/
Disallow: /options/
Disallow: /all_topics/
Disallow: /all_posts/
Disallow: /warning/
Disallow: /pm/
Disallow: /moderators/
Disallow: /search/
Disallow: /last_topics/
Disallow: /topic_active/
Disallow: /last_posts/
Disallow: /edit_status/
Disallow: /warning_add/
Disallow: /notice/
Disallow: /index.php?subaction=userinfo
Disallow: /autobackup.php
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /backup/
Disallow: /engine/
Disallow: /newposts/
Disallow: /addnews.html
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /index.php?do=rules
Disallow: /rules.html
Host: *****.ru
Sitemap: http://******.ru/sitemap.xml

В выдаче G есть по страницам резудьтаты, например ***** **** стр. 4; ***** **** стр. 5; ***** **** стр. 6...

Наверно это лишнее, не для Sape же сайт, но всёравно страшновато ставить "Disallow: /page/", не навредит ли это индексации новостей?

------

Погуглил, нашёл следующую инфу http://power-dle.com/blog/569-pravilnyy-robotstxt-dlya-dle.html и добавил в свой robots.txt ещё:

Disallow: /page/

Вот интересно написано ещё по теме http://sokol-motor.info/web-design/60-sostavlyaem-tekst-robotstxt-cms-dle-96.html

Облоко тегов не стал пока закрывать.

A
На сайте с 08.05.2008
Offline
49
#5
error2k:
Всегда удивляло, зачем для Яндекса дублируют все поля?
Я всегда делал общий список, внизу сайтмап и хост.

Потому что инструкция Host не стандартна и чем беспокоиться о том, что чей-нить кривой парсер роботсов из-за неё проигнорирует все остальные инструкции, некоторые считают проще сделать дубль специально для Яши и не париться. Чтобы было "аккуратненько".

Впрочем, я лично тоже не морочусь и пишу всё одним блоком.

[Удален]
#6
WebMage:
Сделал сейчас такой robots.txt:

Disallow: /2012/

Disallow: /2013/

- можно заменить одним

Disallow: /201*/

такое правило распространяется до 2019г.

Disallow: /cgi-bin/

- это системный каталог хостера, роботы туда не ходят и Вам там делать нечего

Disallow: /page/

- чтобы закрыть всю постраничную навигацию, лучше написать:

Disallow: /page/*

Disallow: /cache/

- лишняя запись

потому что,

Disallow: /engine/

закрывает всю системную папку движка DLE, в том числе и директорию

/cache/

Disallow: /autobackup.php

- файла autobackup.php нет в DLE 9.6.

в более ранних версиях движка его безболезненно, просто удаляли.

Disallow: /upgrade/

- лишняя запись.

Читаем документацию DLE:

Внимание: После установки или обновления скрипта на сервере, обязательно удалите файл install.php и папку /upgrade/

Вообще, рекомендую почитать по теме:

http://sokol-motor.info/web-design/43-fayl-robotstxt-dlya-dle.html

http://sokol-motor.info/web-design/59-obyazatelnye-direktivy-robotstxt-cms-dle-96.html

http://sokol-motor.info/web-design/60-sostavlyaem-tekst-robotstxt-cms-dle-96.html

потом познакомиться с ЯндексВебмастер и проверить свой сайт на доступность для поисковиков.

P.S.

Disallow: /favorites/

- это каталог избранное пользователя, кажись он закрывается общим правилом:

Disallow: /user/

- опять же, это нужно смотреть через сервис Яндекса или Гугла.

http://webmaster.yandex.ua/robots.xml

[Удален]
#7
Arech:
Потому что инструкция Host не стандартна и чем беспокоиться о том, что чей-нить кривой парсер роботсов из-за неё проигнорирует все остальные инструкции, некоторые считают проще сделать дубль специально для Яши и не париться. Чтобы было "аккуратненько".

Впрочем, я лично тоже не морочусь и пишу всё одним блоком.

Нигде ничего не закривит. 21 век на дворе.

Сам Яндекс рекомендует все писать одним блоком.

Все Яндекс-боты прекрасно кушают директиву

User-agent: *

Для обычных сайтов и блогов нет смысла париться с отдельным блоком.

Другое дело - сайты стремные.

Блок

User-agent: Yandex

- обязательно нужен для сайтов, за контент которых Яндекс может впарить бан.

- прежде всего, это варезники и жесткое XXX

Но, в этой ситуации, нужен индивидуальный подход.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий