robots.txt- как правильно настраивать, и полезная информация ?

VR
На сайте с 14.09.2006
Offline
0
686

Добрый дент !

Хочу посоветоваться по настройке robots.txt

У меня в директории много папок ( в каждом из них информация, скрипты) - хотелось бы запретить индексирования этих папок.

Это делается так:

User-agent: *

Disallow: /папка1/

Disallow: /папка2/

Правильно? А какую команду еще нужно записать, чтоб кроме этих директорий, бот проиндексировал все остальные папки, на которых нет запрета? Или это by default идет - ничего не нужно написать кроме запретов? Объясните этот момент, пожалуйста.

Так же, интересно было узнать вот что. У меня в хостинге идет вот так: как заходишь в ФТП, показывается папки _private, WWW, public_html

ВОПРОС - куда загрузить файл роботс.тхт ? Если в директорию /public_html/ - то нужно же указывать имя этой папки в роботс.тхт, например - Disallow: /public_html/папка2/ ?

* в public_html хранится все файла сайта.

Еще вопрос - как влияет на трафик появление ботов ? Нужно ли запретить всех ботов, оставляя только Яндекса, Гугла и других известных?

А как управлять трафиком уже выбранных, известных ботов? Можно ли ставить ограничения чтоб они не забрали весь трафик ?

И на последок, что значит вот это : Crawl-Delay: 10 ?

Serboy
На сайте с 29.09.2005
Offline
94
#1

VadimRU, да, правильно вы написали. Остальное, что не запрещено, то разрешено. Роботс выкладывается в корневую директорию сайта, оттуда и пляшет (public_html в роботсе писать - не нужно). www и public_html - обычно, одно и то же. Или вы файлы в обеих папках обновляете?

* в public_html хранится все файла сайта.

Туда и положите.

По роботам: это уже по ситуации (бывает звереют) и на ваше усмотрение.

Crawl-delay: первое, что попалось - http://notes.webartsolutions.com/archives/000011.html, пользуйтесь поиском.

il4
На сайте с 23.05.2006
Offline
105
il4
#2

помещаете файл в одну директорию с index ом

все что не запреще индексируется по ссылкам

ботов можно не отменять, чем больше тем лучше

а трафика мало не бывает!

C
На сайте с 19.09.2001
Offline
120
#3

VadimRU, public_html - это корневая папка веб-документов, именно в нее надо класть файл robots.txt.

то нужно же указывать имя этой папки в роботс.тхт, например - Disallow: /public_html/папка2/ ?

Нет, не нужно.

И на последок, что значит вот это : Crawl-Delay: 10 ?

Это дополнительная инструкция, которую понимают только роботы MSN и Yahoo, она задает временной промежуток между запросами робота. Хотя Вам ссылку уже дали. ;)

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий