Все вопросы по robots.txt

Cell
На сайте с 09.10.2007
Offline
552
285003

Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам.

Базовые знания можно почерпнуть у:

Википедии

Яндекса

Google - Инструменты для веб-мастеров

Сайта robotstxt.org.ru

P.S. Проверить свой robots.txt можно по ссылкам -

в Яндекс: http://webmaster.yandex.ru/robots.xml#results

в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru

Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

The Piper at the Gates of Dawn.
G-and-Y
На сайте с 29.06.2013
Offline
156
#1

/brend/11/breguet2.html

/brend/11/breguet3.html

Как закрыть ссылки такого вида?(страницы пагинации)

движок ИМ от luxcash.ru

Скорее всего нужно на уровне движка метатегом, или можно роботсом?

Абузо-устойчивые впс в Нидерландах от 5$/мес (https://cp.inferno.name/aff.php?aff=2991)
cheredov
На сайте с 07.04.2011
Offline
125
#2
G-and-Y:
/brend/11/breguet2.html
/brend/11/breguet3.html

Как закрыть ссылки такого вида?(страницы пагинации)
движок ИМ от luxcash.ru

Скорее всего нужно на уровне движка метатегом, или можно роботсом?

Disallow : /brend/11/breguet

---------- Добавлено 13.12.2013 в 12:31 ----------

Кстати на robotstxt.org.ru устаревшая инфа.

---------- Добавлено 13.12.2013 в 12:43 ----------

В википедию тоже все кому не лень пишут

Также, для управления индексацией применяют теги <noindex> и атрибут <nofollow>, закрывающие содержимое сайта от роботов Яндекса и Google соответственно (Yahoo использует тег <nofollow>).

2 и 3 ссылки всем должно быть за глаза. Остальные вопросы на этом форуме.

Иван Чередов (http://ivan.cheredov.com/about/)
Cell
На сайте с 09.10.2007
Offline
552
#3
cheredov:
2 и 3 ссылки всем должно быть за глаза.

Какие, на ваш взгляд?

G-and-Y
На сайте с 29.06.2013
Offline
156
#4

Disallow : /brend/11/breguet

такой способ закроет доступ к категории насколько я понимаю

/brend/11/breguet.html

-S
На сайте с 10.12.2006
Offline
Модератор1353
#5

Прикрепил тему, думаю, всем будет полезна и не будет плодиться сотня тем об одном и том же.

Dombrov
На сайте с 04.03.2010
Offline
53
#6

По вопросам robots.txt отдельный топик, поэтому продолжение из данной закрытой темы /ru/forum/827897

Сообщение от Dombrov Посмотреть сообщение

Может вот так?

Disallow: /*2*/

allow: /*2*-*/

Первый запрещает все с цифрой два. А второй разрешает из них если стоит -. Если исходить из вашей структуры то /число/ старые страницы, а новые могут быть /число-/, а такие как раз разрешаем.

avtomastersu: Спасибо, очень интересное предложение. А не существует правила, одного для всех цифр, что бы не вставлять 2, 5, 78 и т. д., много их там таких.

Или так нельзя?

Для всех не знаю, но достаточно до 9.

Disallow: /*1*/

allow: /*1*-*/

Disallow: /*2*/

allow: /*2*-*/

Disallow: /*3*/

allow: /*3*-*/

и так далее до 9 и все. Указывать двухзначные числа или трехзначные не надо. Он ищет символ, например 2, и находит его как в 250 так и 320.

G-and-Y
На сайте с 29.06.2013
Offline
156
#7
G-and-Y:
/brend/11/breguet2.html
/brend/11/breguet3.html

Как закрыть ссылки такого вида?(страницы пагинации)
движок ИМ от luxcash.ru

Скорее всего нужно на уровне движка метатегом, или можно роботсом?

А что если так?

Disallow: /*/*/*1.html

Disallow: /*/*/*2.html

Психиатр
На сайте с 16.11.2010
Offline
360
#8
G-and-Y:
А что если так?

Disallow: /*/*/*1.html
Disallow: /*/*/*2.html

А так разве не проще?

Disallow: /*1.html

богоносец
На сайте с 30.01.2007
Offline
753
#9

И помните, что всё закрытое в роботсе, может успешно искаться, если кто-то вдруг поставит ссылку. Не нравится, не отвечайте 200

Cell:
Какие, на ваш взгляд?

Те, по которым написано про регистрозависимость всего, что после Disallow: /

а то была уже тема Яндекс нашел MegaIndex.

A1
На сайте с 17.12.2012
Offline
13
#10

Здравствуйте уважаемые гуру!

Недавно заглянул в статистику webmaster.yandex.ru своего аккаунта и увидел следующее:

Исключенные страницы:

HTTP-статус: Ресурс не найден (404) 154

Документ запрещен в файле robots.txt 163

При детальном просмотре статистики обнаружилось, что большинство страниц моего ресурса закрыто от индексации директивой Disallow: /*?*. В связи с чем вопрос, глубоко уважаемые гуру: какие страницы запрещены к индексации при введении данной директивы (сайт на wordpress)? Эффективна ли она в принципе, ведь с ее помощью от индексации закрыто чуть ли не большая половина контента моего ресурса.

Спасибо!

_________________________________________________________________________________________ С почтением и уважением Александр Астафьев

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий