robot.txt- Что там должно быть указано?

M

14

makler

30 июня 2004, 17:14

1983

robot.txt- Что там должно быть указано? Подскажите пожалуйста.

291

Nikolai Popkov

30 июня 2004, 18:29

#1

http://www.yandex.ru/info/webmaster2.html

http://www.citforum.ru/internet/search/rbtspec.shtml

партнерские программы (http://www.ebanners.ru/viewforum.php?f=7), словарь термины SEO (http://www.ebanners.ru/viewtopic.php?t=548) Форум маркетинг (http://www.reclama.su/) Reclama.Su, обмен ссылками (http://www.ebanners.ru/viewforum.php?f=13), Reklama.SU: контекстная реклама (http://www.reklama.su/) по цене Яндекса+продвижение за результат

ER

107

EvgRen

1 июля 2004, 05:21

#2

Файл должен называться robots.txt, а не robot.txt

519

greenwood

1 июля 2004, 07:10

#3

Всё запрещено

User-Agent: *

Disallow: /

Всё разрешено

User-Agent: *

Disallow:

файл сделан в блокноте NOTEPAD который лежит в корне Windows

Изготовленный файл нужно назвать robots.txt и положить на сервер в корень сайта

другие варианты читать где указал Nikolai Popkov

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

SN

26

SAN

1 июля 2004, 08:59

#4

Руководство для Web-администратора по протоколу исключений для роботов (robots.txt).

Данное руководство помогает администраторам Wеб-серверов, желающим использовать протокол исключений для роботов (Роботс Ехцлусион Протоцол).

Введение

Протокол исключений для роботов очень прост. В двух словах он работает так:

Когда робот (подчиняющийся данному протоколу) посещает сайт, он сперва проверяет наличие "/роботс.тхт" на сайте. Если УРЛ существует, робот проверяет содержимое файла на предмет инструкций, запрещающих роботу посещать отдельные части сайта.

Как администратор Wеб-сервера Вы можете создать директивы, которые имеют смысл для Вашего сайта. Эта страница поможет Вам в этом.

Где создавать файл роботс.тхт

Робот будет искать "/роботс.тхт" УРЛ на Вашем сайте, где сайт определен как ХТТП - сервер запущенный на различных хостах и портах.

размещать "роботс.тхт" файлы в пользовательсктх директориях, потому что робот никогда не увидит их. Если Вы хотите, чтобы пользователи могли создавать свои собственные "роботс.тхт", Вы должны объединить их всех в единственном "/роботс.тхт". Если Вы не хотите делать этого, Ваши пользователи могут использовать Роботс МЕТА Таг.

Также помните, что УРЛьи чувствительны к регистру и "/роботс.тхт" должен быть набран в нижнем регистре.

Таким образом, Вы должны размещать "/роботс.тхт" на самом верхнем уровне Вашего сайта. Как это сделать - зависит от программного обеспечения на Вашем сервере и конфигурации.

Для большинства серверов это означает создание файла в директории верхнего уровня на Вашем сервере. На УНИХ машине это может быть /уср/лоцал/етц/хттпд/хтдоцс/роботс.тхт

Что писать в роботс.тхт файле

Файл "/роботс.тхт" обычно содержит записи, подобные этим:

Усер-агент: *

Дисаллоw: /цги-бин/

Дисаллоw: /тмп/

Дисаллоw: /~ёе/

В этом примере, три директории исключены.

Обратите внимание, что Вам необходима отдельная строка "Дисаллоw" для каждого префикса УРЛ, который Вы собираетесь исключать -- Вы не можете написать "Дисаллоw: /цги-бин/ /тмп/". Также, Вы не можете допускать пустые линии в записи так как они используются для разделения множественных записей.

Заметьте также, что регулярные выражения не поддерживаются ни в поле Усер-агент ни в поле Дисаллоw. ь*ь в поле Усер-агент --специальный символ означающий "любой робот". Вы не можете использовать "Дисаллоw: /тмп/*" или "Дисаллоw: *.гиф".

То, что Вы хотите исключить зависит от Вашего сервера. Всё что не запрещено явным образом становится законной добычей робота. Ниже несколько примеров:

Исключить посещение всего сервера всеми роботами

Усер-агент: *

Дисаллоw: /

Разрешить всем роботам полный доступ

Усер-агент: *

Дисаллоw:

Или создать пустой файл "/роботс.тхт" филе.

Исключить часть сервера от посещения всеми роботами

Усер-агент: *

Дисаллоw: /цги-бин/

Дисаллоw: /тмп/

Дисаллоw: /привате/

Исключить для одного робота

Усер-агент: БадБот

Дисаллоw: /

Разрешить одному роботу

Усер-агент: WебЦраwлер

Дисаллоw:

Усер-агент: *

Дисаллоw: /

Исключить все файлы кроме одного

В настоящий момент добится этого не так просто, как хотелось бы, т.к. поле "Аллоw" не предусмотрено. Самый простой способ - поместить все файлы, доступ к которым Вы хотите запретить в отдельный каталог, скажем "доцс" и оставить единственный файл на уровне выше этого каталога:

Усер-агент: *

Дисаллоw: /~ёе/доцс/

В качестве альтернативы мы можете запретить все страницы:

Усер-агент: *

Дисаллоw: /~ёе/привате.хтмл

Дисаллоw: /~ёе/фоо.хтмл

Дисаллоw: /~ёе/бар.хтмл

Составление файла роботс.тхт

Как известно, файл роботс.тхт используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных.

Формат файла роботс.тхт

роботс.тхт — простой текстовый файл1, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре (РОБОТС.ТХТ, Роботс.тхт — неправильно).

В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми ЦР, ЦРНЛ, НЛ или \р, \р\н, \н). Каждая запись, в свою очередь, состоит из строк следующего вида:

имя_поля:[необязательные пробелы]значение[необязательные пробелы]

Поле является нечувствительным к регистру (цасе инсенситиве).

Каждая запись начинается одной или несколькими строками, где имя_поля=Усер-агент, после чего следует одна или несколько строк, где имя_поля=Дисаллоw, имена полей, которые отличаются от двух указанных, игнорируются2.

Знак «#» означает, что пробелы перед ним и все символы до конца строки являются комментарием. Строки, содержащие только комментарий, игнорируются и не могут использоваться для разделения записей.

Усер-агент

· Значением этого поля является имя робота, к которому применяются правила иключений;

· Если строк с Усер-агент несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;

· Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле роботс.тхт может быть только одна запись с Усер-агент: *.

Дисаллоw

· В записи должно быть хотя бы одно поле Дисаллоw;

· в поле Дисаллоw указывается частичный или полный путь (УРЛ), который не будет посещен;

· пустое значение (Дисаллоw: ) интерпретируется как разрешение на посещение любой страницы;

· регулярные выражения и символы подстановки запрещены3.

Практика

В процессе обработки сайта роботы имеют массив ссылок для посещения и набор правил исключения из файла роботс.тхт. Для каждой ссылки выделяется путь (хттп://www.сите.цом/патх/то/филе.хтмл), после чего к этому пути применяются по очереди правила исключения. Пусть в файле есть строка Дисаллоw: /патх/то, она сравнивается с соответствующей подстрокой ссылки:

хттп://www.сите.цом/патх/то/филе1.хтмл — посещение запрещено;

хттп://www.сите.цом/патх/то/филе2.хтмл — посещение запрещено;

хттп://www.сите.цом/патх/филе3.хтмл — посещение разрешено.

Чтобы запретить роботу посещение динамических страниц, можно использовать частичный путь. Например, чтобы запретить посещение страниц для печати вида хттп://www.сите.цом/индех.пхп?ацтион=принт&ид=1, но разрешить посещение страниц вида хттп://www.сите.цом/индех.пхп?ацтион=виеw&ид=1, необходимо в роботс.тхт написать следующее:

Дисаллоw: /индех.пхп?ацтион=принт

Однако следует учитывать порядок параметров в ссылке. Так, следующие страницы робот посетит:

хттп://www.сите.цом/индех.пхп?ид=1&ацтион=принт

хттп://www.сите.цом/?ацтион=принт&ид=1

Пример файла роботс.тхт

Усер-агент: *

Дисаллоw: /неwс

# запретить всем роботам индексировать ссылки,

#которые начинаются с /неwс

Усер-агент: СтацкРамблер

Усер-агент: Апорт

Дисаллоw: /енг

Дисаллоw: /неwс

#Рамблеру и Апорту запретить индексацию ссылок,

#которые начинаются с /неwс и /енг

Усер-агент: Яндех

Дисаллоw:

#Яндексу разрешить все.

Следует заметить, что файл роботс.тхт не является панацеей, так как его правила исключения используют только «культурные» роботы, а наряду с ними существует целый список роботов, сервисов и программ, которые не следуют правилам исключения, либо игнорируют существование файла роботс.тхт на сайте.

Кроме этого в файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл роботс.тхт доступен всем, поэтому присутствие там строк, вроде Дисаллоw: /админ, только подзадорит некоторых посетителей к совершению вредоносных действий.

Примечания

1. В некоторых случаях используется динамическое формирование файла роботс.тхт, для сайтов с зеркалами.

2. Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного зеркала сайта.

3. Некоторые системы разрешают использование регулярных выражений. Так Гугл, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Это позволяет запретить индексирование определенного типа файлов:

User-agent: Googlebot

Disallow: *.pdf$

#Запрет индексации файлов PDF

По мнению автора это избыточное расширение, так как с тем же успехом можно вынести все документы PDF в отдельный каталог и запретить его индексирование:

User-agent: *

Disallow: /pdf/

З.Ы. На мой взгляд очень исчерпывающее руководство, не помню где но давненько в нете нарыл эту инфу, поковырялся у себя в архивах и вот выкладываю.
З.Ы.Ы. К сожалению не помню где откапал, и по этому не могу поставить ссылку на данный контент, но где то в нете это точно.

Все для спорта и здоровья (http://www.realsport.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

C

120

Cherny

1 июля 2004, 10:15

#5

Да уж...

Вот источник, только там ошибка -- между именем поля и двоеточием не должно быть пробелов.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

Y

104

Yana

18 августа 2004, 14:20

#6

Подскажите, пожалуйста, решение для следующей ситуации.

У меня часть сайта на русском языке, часть - на греческом. От русских поисковиков я закрыла греческую часть через robots.txt. Как мне разрешить греческим роботам видеть только греческую часть?

Условия таковы:

1. Имена роботов неизвестны, но известны IP

2. Для греческих роботов должна быть доступна только одна директория. Как это правильно записать?

Ищу реальную проверенную партнерку для кулинарных сайтов

Помощь в фильтрации ботов Мистика какая-то со шрифтами Записи в Elementor

C

120

Cherny

19 августа 2004, 07:27

#7

1. Надо узнать имена роботов. Для этого смотреть User-agent тех, кто с известных IP делал запросы. Общепринятая практика -- писать в User-agent имя робота и/или адрес страницы, где лежит информация про данного робота. Для этих имен и писать правила.

2. Написать директории, которые робот должен индексировать,

нельзя, следует закрыть все остальные, которые индексировать не надо.

EC

34

EDC

20 августа 2004, 11:55

#8

Скажите, а если написать вот так:

User-Agent: *

Disallow: /dir/file.php

Отключиться только этот файл или еще такие конструкции, как dir/file.php?id=1, dir/file.php?id=2, dir/file.php?id=1&id2=6, ну и т.д. ?

И еще, может ли отключение этих страниц повлиять на релевантность в выдаче других страниц сайта?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

519

greenwood

20 августа 2004, 12:07

#9

И еще, может ли отключение этих страниц повлиять на релевантность в выдаче других страниц сайта?

все зависит насколько их много к общему колличеству - если оставить только главную , то наверняка повлияет

C

120

Cherny

20 августа 2004, 12:14

#10

Отключиться только этот файл или еще такие конструкции, как dir/file.php?id=1, dir/file.php?id=2, dir/file.php?id=1&id2=6, ну и т.д.?

Индексироваться не будут все страницы, URL которых начинается с /dir/file.php, т.е. в Вашем случае dir/file.php?id=1, dir/file.php?id=1&id2=6 индексироваться не будут.

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел