robot.txt- Что там должно быть указано?

M
На сайте с 23.01.2004
Offline
14
1977

robot.txt- Что там должно быть указано? Подскажите пожалуйста.

Nikolai Popkov
На сайте с 07.06.2001
Offline
291
#1
партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат
ER
На сайте с 19.11.2002
Offline
107
#2

Файл должен называться robots.txt, а не robot.txt

greenwood
На сайте с 08.09.2003
Offline
519
#3

Всё запрещено

User-Agent: *

Disallow: /

Всё разрешено

User-Agent: *

Disallow:

файл сделан в блокноте NOTEPAD который лежит в корне Windows

Изготовленный файл нужно назвать robots.txt и положить на сервер в корень сайта

другие варианты читать где указал Nikolai Popkov

SN
На сайте с 24.09.2002
Offline
26
SAN
#4

Руководство для Web-администратора по протоколу исключений для роботов (robots.txt).

Данное руководство помогает администраторам Wеб-серверов, желающим использовать протокол исключений для роботов (Роботс Ехцлусион Протоцол).

Введение

Протокол исключений для роботов очень прост. В двух словах он работает так:

Когда робот (подчиняющийся данному протоколу) посещает сайт, он сперва проверяет наличие "/роботс.тхт" на сайте. Если УРЛ существует, робот проверяет содержимое файла на предмет инструкций, запрещающих роботу посещать отдельные части сайта.

Как администратор Wеб-сервера Вы можете создать директивы, которые имеют смысл для Вашего сайта. Эта страница поможет Вам в этом.

Где создавать файл роботс.тхт

Робот будет искать "/роботс.тхт" УРЛ на Вашем сайте, где сайт определен как ХТТП - сервер запущенный на различных хостах и портах.

размещать "роботс.тхт" файлы в пользовательсктх директориях, потому что робот никогда не увидит их. Если Вы хотите, чтобы пользователи могли создавать свои собственные "роботс.тхт", Вы должны объединить их всех в единственном "/роботс.тхт". Если Вы не хотите делать этого, Ваши пользователи могут использовать Роботс МЕТА Таг.

Также помните, что УРЛьи чувствительны к регистру и "/роботс.тхт" должен быть набран в нижнем регистре.

Таким образом, Вы должны размещать "/роботс.тхт" на самом верхнем уровне Вашего сайта. Как это сделать - зависит от программного обеспечения на Вашем сервере и конфигурации.

Для большинства серверов это означает создание файла в директории верхнего уровня на Вашем сервере. На УНИХ машине это может быть /уср/лоцал/етц/хттпд/хтдоцс/роботс.тхт

Что писать в роботс.тхт файле

Файл "/роботс.тхт" обычно содержит записи, подобные этим:

Усер-агент: *

Дисаллоw: /цги-бин/

Дисаллоw: /тмп/

Дисаллоw: /~ёе/

В этом примере, три директории исключены.

Обратите внимание, что Вам необходима отдельная строка "Дисаллоw" для каждого префикса УРЛ, который Вы собираетесь исключать -- Вы не можете написать "Дисаллоw: /цги-бин/ /тмп/". Также, Вы не можете допускать пустые линии в записи так как они используются для разделения множественных записей.

Заметьте также, что регулярные выражения не поддерживаются ни в поле Усер-агент ни в поле Дисаллоw. ь*ь в поле Усер-агент --специальный символ означающий "любой робот". Вы не можете использовать "Дисаллоw: /тмп/*" или "Дисаллоw: *.гиф".

То, что Вы хотите исключить зависит от Вашего сервера. Всё что не запрещено явным образом становится законной добычей робота. Ниже несколько примеров:

Исключить посещение всего сервера всеми роботами

Усер-агент: *

Дисаллоw: /

Разрешить всем роботам полный доступ

Усер-агент: *

Дисаллоw:

Или создать пустой файл "/роботс.тхт" филе.

Исключить часть сервера от посещения всеми роботами

Усер-агент: *

Дисаллоw: /цги-бин/

Дисаллоw: /тмп/

Дисаллоw: /привате/

Исключить для одного робота

Усер-агент: БадБот

Дисаллоw: /

Разрешить одному роботу

Усер-агент: WебЦраwлер

Дисаллоw:

Усер-агент: *

Дисаллоw: /

Исключить все файлы кроме одного

В настоящий момент добится этого не так просто, как хотелось бы, т.к. поле "Аллоw" не предусмотрено. Самый простой способ - поместить все файлы, доступ к которым Вы хотите запретить в отдельный каталог, скажем "доцс" и оставить единственный файл на уровне выше этого каталога:

Усер-агент: *

Дисаллоw: /~ёе/доцс/

В качестве альтернативы мы можете запретить все страницы:

Усер-агент: *

Дисаллоw: /~ёе/привате.хтмл

Дисаллоw: /~ёе/фоо.хтмл

Дисаллоw: /~ёе/бар.хтмл

Составление файла роботс.тхт

Как известно, файл роботс.тхт используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных.

Формат файла роботс.тхт

роботс.тхт — простой текстовый файл1, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре (РОБОТС.ТХТ, Роботс.тхт — неправильно).

В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми ЦР, ЦРНЛ, НЛ или \р, \р\н, \н). Каждая запись, в свою очередь, состоит из строк следующего вида:

имя_поля:[необязательные пробелы]значение[необязательные пробелы]

Поле является нечувствительным к регистру (цасе инсенситиве).

Каждая запись начинается одной или несколькими строками, где имя_поля=Усер-агент, после чего следует одна или несколько строк, где имя_поля=Дисаллоw, имена полей, которые отличаются от двух указанных, игнорируются2.

Знак «#» означает, что пробелы перед ним и все символы до конца строки являются комментарием. Строки, содержащие только комментарий, игнорируются и не могут использоваться для разделения записей.

Усер-агент

· Значением этого поля является имя робота, к которому применяются правила иключений;

· Если строк с Усер-агент несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;

· Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле роботс.тхт может быть только одна запись с Усер-агент: *.

Дисаллоw

· В записи должно быть хотя бы одно поле Дисаллоw;

· в поле Дисаллоw указывается частичный или полный путь (УРЛ), который не будет посещен;

· пустое значение (Дисаллоw: ) интерпретируется как разрешение на посещение любой страницы;

· регулярные выражения и символы подстановки запрещены3.

Практика

В процессе обработки сайта роботы имеют массив ссылок для посещения и набор правил исключения из файла роботс.тхт. Для каждой ссылки выделяется путь (хттп://www.сите.цом/патх/то/филе.хтмл), после чего к этому пути применяются по очереди правила исключения. Пусть в файле есть строка Дисаллоw: /патх/то, она сравнивается с соответствующей подстрокой ссылки:

хттп://www.сите.цом/патх/то/филе1.хтмл — посещение запрещено;

хттп://www.сите.цом/патх/то/филе2.хтмл — посещение запрещено;

хттп://www.сите.цом/патх/филе3.хтмл — посещение разрешено.

Чтобы запретить роботу посещение динамических страниц, можно использовать частичный путь. Например, чтобы запретить посещение страниц для печати вида хттп://www.сите.цом/индех.пхп?ацтион=принт&ид=1, но разрешить посещение страниц вида хттп://www.сите.цом/индех.пхп?ацтион=виеw&ид=1, необходимо в роботс.тхт написать следующее:

Дисаллоw: /индех.пхп?ацтион=принт

Однако следует учитывать порядок параметров в ссылке. Так, следующие страницы робот посетит:

хттп://www.сите.цом/индех.пхп?ид=1&ацтион=принт

хттп://www.сите.цом/?ацтион=принт&ид=1

Пример файла роботс.тхт

Усер-агент: *

Дисаллоw: /неwс

# запретить всем роботам индексировать ссылки,

#которые начинаются с /неwс

Усер-агент: СтацкРамблер

Усер-агент: Апорт

Дисаллоw: /енг

Дисаллоw: /неwс

#Рамблеру и Апорту запретить индексацию ссылок,

#которые начинаются с /неwс и /енг

Усер-агент: Яндех

Дисаллоw:

#Яндексу разрешить все.

Следует заметить, что файл роботс.тхт не является панацеей, так как его правила исключения используют только «культурные» роботы, а наряду с ними существует целый список роботов, сервисов и программ, которые не следуют правилам исключения, либо игнорируют существование файла роботс.тхт на сайте.

Кроме этого в файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл роботс.тхт доступен всем, поэтому присутствие там строк, вроде Дисаллоw: /админ, только подзадорит некоторых посетителей к совершению вредоносных действий.

Примечания

1. В некоторых случаях используется динамическое формирование файла роботс.тхт, для сайтов с зеркалами.

2. Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного зеркала сайта.

3. Некоторые системы разрешают использование регулярных выражений. Так Гугл, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Это позволяет запретить индексирование определенного типа файлов:

User-agent: Googlebot

Disallow: *.pdf$

#Запрет индексации файлов PDF

По мнению автора это избыточное расширение, так как с тем же успехом можно вынести все документы PDF в отдельный каталог и запретить его индексирование:

User-agent: *

Disallow: /pdf/

З.Ы. На мой взгляд очень исчерпывающее руководство, не помню где но давненько в нете нарыл эту инфу, поковырялся у себя в архивах и вот выкладываю.
З.Ы.Ы. К сожалению не помню где откапал, и по этому не могу поставить ссылку на данный контент, но где то в нете это точно.

Все для спорта и здоровья (http://www.realsport.ru)
C
На сайте с 19.09.2001
Offline
120
#5

Да уж...

Вот источник, только там ошибка -- между именем поля и двоеточием не должно быть пробелов.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
Y
На сайте с 02.06.2003
Offline
104
#6

Подскажите, пожалуйста, решение для следующей ситуации.

У меня часть сайта на русском языке, часть - на греческом. От русских поисковиков я закрыла греческую часть через robots.txt. Как мне разрешить греческим роботам видеть только греческую часть?

Условия таковы:

1. Имена роботов неизвестны, но известны IP

2. Для греческих роботов должна быть доступна только одна директория. Как это правильно записать?

Ищу реальную проверенную партнерку для кулинарных сайтов
C
На сайте с 19.09.2001
Offline
120
#7

1. Надо узнать имена роботов. Для этого смотреть User-agent тех, кто с известных IP делал запросы. Общепринятая практика -- писать в User-agent имя робота и/или адрес страницы, где лежит информация про данного робота. Для этих имен и писать правила.

2. Написать директории, которые робот должен индексировать,

нельзя, следует закрыть все остальные, которые индексировать не надо.

EC
На сайте с 18.06.2004
Offline
34
EDC
#8

Скажите, а если написать вот так:

User-Agent: *

Disallow: /dir/file.php

Отключиться только этот файл или еще такие конструкции, как dir/file.php?id=1, dir/file.php?id=2, dir/file.php?id=1&id2=6, ну и т.д. ?

И еще, может ли отключение этих страниц повлиять на релевантность в выдаче других страниц сайта?

greenwood
На сайте с 08.09.2003
Offline
519
#9
И еще, может ли отключение этих страниц повлиять на релевантность в выдаче других страниц сайта?

все зависит насколько их много к общему колличеству - если оставить только главную , то наверняка повлияет

C
На сайте с 19.09.2001
Offline
120
#10
Отключиться только этот файл или еще такие конструкции, как dir/file.php?id=1, dir/file.php?id=2, dir/file.php?id=1&id2=6, ну и т.д.?

Индексироваться не будут все страницы, URL которых начинается с /dir/file.php, т.е. в Вашем случае dir/file.php?id=1, dir/file.php?id=1&id2=6 индексироваться не будут.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий