robots.txt

146

Murdoc (msk)

22 ноября 2005, 05:04

1581

Подскажите где должен лежать этот файлик? и если я его не вижу, то значит нет доступа? а как просмотреть все ли правильно в нем написано! Просто есть сомнение что предидущие оптимизаторы специально там накосячили чтобы сайт изчез из поиска! сайт находиться на площадке оптимизаторов.

223

MaxiK

22 ноября 2005, 05:48

#1

в корне.

www.сайт.ру/robots.txt

Логистика из Китая. Полный цикл. UA.

152

Zegaldis

22 ноября 2005, 06:15

#2

Если содержимое файлика не видно, то его или нету вообще или же он нулевой длинны

JR

263

jED R.

22 ноября 2005, 06:50

#3

Murdoc (msk), /ru/news/144

146

Murdoc (msk)

22 ноября 2005, 07:30

#4

в корне.

www.сайт.ру/robots.txt

Не открывается! это значит его нет? и я могу свой составить?

JR

263

jED R.

22 ноября 2005, 07:59

#5

Murdoc (msk), угу, дали ж ссылку, там коротенько так всё описано вроде ;)

16

Sham

22 ноября 2005, 10:15

#6

Управление индексацией

Оглавление документа

Файл robots.txt

МЕТА тэг <Robots>

Есть два способа влияния на роботов поисковых машин: файл robots.txt и META тэг ROBOTS.

Файл robots.txt

Единственное, что может делать файл robots.txt – это закрывать от индексации файлы и каталоги. Делать это может выборочно, ориентируясь на имена роботов поисковых машин. Если проект предназначен для индексации поисковыми машинами, присутствие файла robots.txt в корневой папке сайта обязательно.

Закрывать от индексации имеет смысл скрипты, архивы, графические файлы, а также часто изменяемые страницы.

Имя файла robots.txt должно состоять из строчных букв (нижний регистр). Файл должен находится в корневом каталоге сервера. Файл с именем robots.txt, находящийся в других каталогах или содержащий буквы верхнего регистра, будет проигнорирован.

Файл robots.txt формируется из записей, по две строки в каждой. Первая строка содержит имя робота, вторая – перечень закрываемых каталогов и/или страниц. Имена каталогов и файлов на сервере рекомендуется всегда писать в нижнем регистре, в последствие не нужно будет угадывать, как набирать адрес.

Пример записи, которая ничего не запрещает:

User-agent: * #относится ко всем роботам

Disallow: #никаких запретов

Звездочка в строке User-agent говорит, что эта запись относится ко всем роботам. Строка Disallow не содержит записей, что означает отсутствие запретов.

Запрещается использовать символы множественного выделения (например, *.gif) в строке Disallow:

Пример записи, запрещающей всё и всем:

User-agent: *

Disallow: /

Первая строка говорит, что данная рекомендация относится ко всем роботам. Вторая строка блокирует (рекомендательно) доступ ко всем файлам и каталогам сервера.

В строке User-agent вместо звездочки могут быть указаны имена конкретных роботов.

Тогда запрещающий тег будет выглядеть так:

User-agent: Yandex

Disallow: /

User-agent: googlebot

Disallow: /

Для роботов Yandex и googlebot доступ на сервер закрыт, для всех остальных роботов ограничений нет.

Пример запрета индексации файлов в служебных каталогах (новый стандарт):

User-Agent: *

Disallow: /cgi-bin/

Disallow: /img/

Disallow: /news/img/

Каталоги и файлы перечисляются построчно.

Можно накладывать ограничения на отдельные файлы и группы файлов:

User-agent: *

Disallow: /my/my.html

Disallow: /docs/mydoc.html

Disallow: /art/my

Последняя строка примера запрещает индексацию всех файлов, расположенных в каталоге /art/, имена которых начинаюся с my

МЕТА тэг <Robots>

META тег ROBOТS может управлять индексацией только той страницы, на которой он прописан. Значение тэга Robоts может состоять из следующих директив, разделенных запятыми:

Index – эта страница должна быть индексирована.

Noindex – эта страница не должна индексироваться.

Follow – прослеживать гиперссылки на странице.

Nofollow – не прослеживать гиперссылки на странице.

All – index, follow (по умолчанию).

None – noindex, nofollow.

Тег <META name=Robоts content="all"> ничего не меняет в работе робота поисковой машины, так как значение “all” принято по умолчанию. Но если эта страница создается динамически или очень часто обновляется, то нет смысла ее индексировать, так как информация о странице в поисковой машине и ее истинное содержание будут разными.

В этом случае можно рекомендовать поисковой машине не индексировать эту страницу, а только отслеживать на ней гиперссылки, чтобы проиндексировать остальную часть сайта: <META name=Robоts content="noindex,follow">.

При использовании тега, запрещающего отслеживание гиперссылок <META name=Robоts content="index,nofollow"> часть сайта может остаться не проиндексированной, так как внутри сайта роботы перемещаются по гиперсылкам. И те страницы, переход на которые заблокирован, роботы найти не смогут.

META-тэг Robots имеет приоритет над директивами управления, заданными в файле robots.txt. То есть, если директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующий META-тэг может запретить индексирование страницы, находящейся в этом каталоге. Обратное невозможно, так как робот просто не узнает, что рекомендует META тег странички в заблокированном каталоге.

Не все роботы воспринимают директивы META-тега ROBOTS в полном объеме. В основном возникают проблемы с директивами Follow и Nofollow.

ps: это не мое, где-то взял, а где не помню :(

Домашние животные, покупка, продажа, вязка (http://petfront.ru), кошки (http://cats.petfront.ru), собаки (http://dogs.petfront.ru) - регистрируем питомники и питомцев.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Зачем быть уникальным в мире, где все можно скопировать