Закрыть от индексации все страницы в разделе, а сам раздел оставить открытым - Вопросы новичков в SEO

Все вопросы по robots.txt

Cell · 2013-12-12T21:37:04.0000000Z

Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам. Базовые знания можно почерпнуть у: Википедии Яндекса Google - Инструменты для веб-мастеров Сайта robotstxt.org.ru P.S. Проверить свой robots.txt можно по ссылкам - в Яндекс: http://webmaster.yandex.ru/robots.xml#results в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

101

zhurikzzz

9 марта 2016, 12:53

#621

Disallow: /? - не будет работать.

Вот так Disallow: /*? - будет.

Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

M5

122

mongoose59

9 марта 2016, 13:22

#622

zhurikzzz:
Disallow: /? - не будет работать.
Вот так Disallow: /*? - будет.

Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

1

59

iLeg0

9 марта 2016, 13:30

#623

mongoose59:
Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

Ну что за бред вы несете?

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

101

zhurikzzz

9 марта 2016, 14:21

#624

mongoose59:
Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

Ну отчасти вы правы, страницы могут в индекс попасть даже если закрыты в robots, но это практически никогда не происходит.

А прописывать в основном лучше <meta name="robots" content="noindex, follow" /> чтоб роботы могли ходить по ссылкам.

Яндекс опубликовал методы управления Google не рекомендует закрывать Google прояснил, как обрабатывается

79

BlagFurer

9 марта 2016, 15:14

#625

zhurikzzz:
Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

Первое, что стоит прописать в любой роботс, если двиг не страдает ?page=2, ?PAGEN_1=2 и прочая архаичная ересь.

---------- Добавлено 09.03.2016 в 18:25 ----------

Eltd:
указываю для яндекса и для гугл правила , а яндекс пишет типо ошибка и два хоста нельзя , это получается для гугл не должен ставить хост???

Директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

Можете написать её хоть в самом начале файла роботс, яндекс найдет её. Но да только один раз можно указать.

---------- Добавлено 09.03.2016 в 18:30 ----------

HardeR:
Насчет моего роботса кто-нибудь что-нибудь скажет?))

Информации о количестве страниц в индексе и количестве исключенных страниц не достаточно что бы понять наличие ошибок в записях роботс.

Не представляю как это можно сделать без знания вашего домена. Надо распарсить сайт + распарсить выдачу "site:". Затем сравнить выдачу с тем, что на сайте и только потом можно сказать, где ошибка в robots.txt.

---------- Добавлено 09.03.2016 в 18:36 ----------

rixter:
При проверке robots.txt в Search Console Гугла адрес mysite.ru/temp доступен.
Получается Гугл ложил на общие правила в User-agent: * если есть отдельно для него.

Это нормальное поведение поисковика. Яндекс работает так же. Принцип: "Зачем заглядывать в общие правила для всех остальных, если есть секция специально для меня?" А что, если директивы в секциях конфликтуют?

---------- Добавлено 09.03.2016 в 18:47 ----------

Dibord:
Здравствуйте!
Сайт e-co.ru
Как закрыть страницы от индексации, но оставить в индексе товары на этих страницах?

/catalog/01-dc-dc/?PAGEN_1=1
/catalog/01-dc-dc/?PAGEN_1=10
/catalog/01-dc-dc/?PAGEN_1=100
/catalog/01-dc-dc/?PAGEN_1=101
/catalog/01-dc-dc/?PAGEN_1=102
/catalog/01-dc-dc/?PAGEN_1=103
/catalog/01-dc-dc/?PAGEN_1=104
/catalog/01-dc-dc/?PAGEN_1=105
/catalog/01-dc-dc/?PAGEN_1=106
/catalog/01-dc-dc/?PAGEN_1=107

Заранее спасибо за ответ!

Запретить

Disallow: /*?

Сделать sitemap.xml

Можно еще послушаться Google: https://support.google.com/webmasters/answer/1663744?hl=ru

---------- Добавлено 09.03.2016 в 18:57 ----------

datum:
Подскажите как в роботсе запредить индексацию страниц вида:
http://site.com/число от 1 до 10/
тоесть:
http://site.com/234235/
http://site.com/222/
и т.д.

Disallow: http://site.com/*1

Disallow: http://site.com/*2

Disallow: http://site.com/*3

Disallow: http://site.com/*4

Disallow: http://site.com/*5

Disallow: http://site.com/*6

Disallow: http://site.com/*7

Disallow: http://site.com/*8

Disallow: http://site.com/*9

:)))

---------- Добавлено 09.03.2016 в 19:21 ----------

DmitryDavydov:
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/

Google панель начинает визжать, что не может получить доступ к js и css, если закрыть эти папки. Смотрите по ситуации. Вот статейка ну и поиск.

Секцию Google можно настроить так, я думаю:

Allow: /bitrix/*.css

Allow: /bitrix/*.js

Disallow: /bitrix/

Новые стандарты для директивы Яндекс внес изменения в Настройка индексирования нового сайта

L

0

Lightthing

14 марта 2016, 09:33

#626

Здравствуйте!) Надеюсь, вопрос пишу куда надо, так как его суть касается Яндекса.

СИТУАЦИЯ:

Клиент захотел новый сайт. Новый сайт сделали на другой СMS, с другой структурой и другим контентом и на другом домене. Желание клиента - продвигать именно новый домен.

Так как старый сайт имеет возраст, ссылки и трафик, но клиенту, по сути, уже не нужен - я настроил с него 301 на "близкие по сути" страницы нового сайта.

Спустя 3-4 недели в Google по запросам старого сайта стали успешно появляться страницы нового.

Но в Яндексе все равно появляется только старый, что для меня, продвигающего новый сайт, не есть повод для хорошего отчета)

Из того, что почитал, рисуется следующие вещи, которые пока мне кажутся не очень понятно совместимыми:

1) Для склейки сайтов в Яндексе нужен не 301 редирект, а дирректива host в robots;

2) Для того, чтобы host сработала - контент двух сайтов должен быть идентичным (мануал Яндекса);

ВОПРОСЫ:

1) Добьюсь ли я цели "склейки" сайтов (чтобы по общим для них запросам в выдаче Яндекса появлялся новый, а не старый), если в host старого пропишу домен нового? Несмотря на то, что у них разный контент, хоть они принадлежат одной компании?

2) Что будет, если я пропишу в host сайта домен с другим контентом? Будет ли в выдаче по запросам появляться новый домен, или не будет, а просто исчезнет из выдачи старый, или ничего не произойдет, или что-то другое случиться?

3) Или моя задача должна решаться как-то иначе, помимо 301 редиректа и записи в host? Хочу использовать максимум от старого сайта для блага нового. Желательно - полное занятие его позиций по запросам в Яндексе новым доменом. В Гугле это получилось 301 редиректом, а как быть с Яндексом?

Буду благодарен всем за ответы)

301 редирект заменит директиву Безвременная кончина директивы Host Смена структуры или дизайна

L

99

lbj

16 марта 2016, 14:33

#627

Как закрыть от индексации все страницы в разделе, а сам раздел оставить открытым?

site/razdel/page

site/razdel/page2

EN

259

ExclusivoN

16 марта 2016, 14:35

#628

lbj, когда в браузере выбираешь корень, то он отправляет на главную страницу раздела, соответственно ее оставить открытой, а все остальные закрыть.

L

99

lbj

16 марта 2016, 15:04

#629

Какой код правильный будет? Неужели нужно будет каждую страницу раздела отдельно писать

Disallow: /razdel/page2

Disallow: /razdel/page3 и т.д ?

T7

123

toxiz77

16 марта 2016, 19:08

#630

Друзья. Как решить такую проблему.

Есть страницы вида:

http://site.com/bla-bla/

и

http://site.com/category/bla-bla/

Так вот, каким-то образом в конец url добавились цифры и это дело проиндексировалось. Теперь у меня есть одна страница в таком виде:

http://site.com/bla-bla/6789

http://site.com/bla-bla/907090

http://site.com/bla-bla/8768769

Причем открывается одна и таже страница.

Хочу запретить индексацию всех постов с цифрами в конце. Что посоветуете?

Google обновил рекомендации по В Google+ можно отключить В Google Search Console

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам

Все вопросы по robots.txt