Все вопросы по robots.txt

zhurikzzz
На сайте с 16.09.2012
Offline
101
#621

Disallow: /? - не будет работать.

Вот так Disallow: /*? - будет.

Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

M5
На сайте с 08.07.2011
Offline
122
#622
zhurikzzz:
Disallow: /? - не будет работать.
Вот так Disallow: /*? - будет.

Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

iLeg0
На сайте с 12.08.2010
Offline
59
#623
mongoose59:
Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

Ну что за бред вы несете?

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

zhurikzzz
На сайте с 16.09.2012
Offline
101
#624
mongoose59:
Только не от индексации, а от сканирования. На страницах, которые нужно закрыть от индексации, желательно еще в коде <meta name="robots" content="noindex, nofollow" /> прописать.

Ну отчасти вы правы, страницы могут в индекс попасть даже если закрыты в robots, но это практически никогда не происходит.

А прописывать в основном лучше <meta name="robots" content="noindex, follow" /> чтоб роботы могли ходить по ссылкам.

BlagFurer
На сайте с 09.12.2009
Offline
79
#625
zhurikzzz:
Вообще Disallow: /*? клевая штука, закрывает от индексации весь ненужных хлам, сортировки, и прочее (все урлы где есть символ " ? ").

Первое, что стоит прописать в любой роботс, если двиг не страдает ?page=2, ?PAGEN_1=2 и прочая архаичная ересь.

---------- Добавлено 09.03.2016 в 18:25 ----------

Eltd:
указываю для яндекса и для гугл правила , а яндекс пишет типо ошибка и два хоста нельзя , это получается для гугл не должен ставить хост???

Директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

Можете написать её хоть в самом начале файла роботс, яндекс найдет её. Но да только один раз можно указать.

---------- Добавлено 09.03.2016 в 18:30 ----------

HardeR:
Насчет моего роботса кто-нибудь что-нибудь скажет?))

Информации о количестве страниц в индексе и количестве исключенных страниц не достаточно что бы понять наличие ошибок в записях роботс.

Не представляю как это можно сделать без знания вашего домена. Надо распарсить сайт + распарсить выдачу "site:". Затем сравнить выдачу с тем, что на сайте и только потом можно сказать, где ошибка в robots.txt.

---------- Добавлено 09.03.2016 в 18:36 ----------

rixter:
При проверке robots.txt в Search Console Гугла адрес mysite.ru/temp доступен.
Получается Гугл ложил на общие правила в User-agent: * если есть отдельно для него.

Это нормальное поведение поисковика. Яндекс работает так же. Принцип: "Зачем заглядывать в общие правила для всех остальных, если есть секция специально для меня?" А что, если директивы в секциях конфликтуют?

---------- Добавлено 09.03.2016 в 18:47 ----------

Dibord:
Здравствуйте!
Сайт e-co.ru
Как закрыть страницы от индексации, но оставить в индексе товары на этих страницах?

/catalog/01-dc-dc/?PAGEN_1=1
/catalog/01-dc-dc/?PAGEN_1=10
/catalog/01-dc-dc/?PAGEN_1=100
/catalog/01-dc-dc/?PAGEN_1=101
/catalog/01-dc-dc/?PAGEN_1=102
/catalog/01-dc-dc/?PAGEN_1=103
/catalog/01-dc-dc/?PAGEN_1=104
/catalog/01-dc-dc/?PAGEN_1=105
/catalog/01-dc-dc/?PAGEN_1=106
/catalog/01-dc-dc/?PAGEN_1=107

Заранее спасибо за ответ!

Запретить

Disallow: /*?

Сделать sitemap.xml

Можно еще послушаться Google: https://support.google.com/webmasters/answer/1663744?hl=ru

---------- Добавлено 09.03.2016 в 18:57 ----------

datum:
Подскажите как в роботсе запредить индексацию страниц вида:
http://site.com/число от 1 до 10/
тоесть:
http://site.com/234235/
http://site.com/222/
и т.д.

Disallow: http://site.com/*1

Disallow: http://site.com/*2

Disallow: http://site.com/*3

Disallow: http://site.com/*4

Disallow: http://site.com/*5

Disallow: http://site.com/*6

Disallow: http://site.com/*7

Disallow: http://site.com/*8

Disallow: http://site.com/*9

:)))

---------- Добавлено 09.03.2016 в 19:21 ----------

DmitryDavydov:
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/

Google панель начинает визжать, что не может получить доступ к js и css, если закрыть эти папки. Смотрите по ситуации. Вот статейка ну и поиск.

Секцию Google можно настроить так, я думаю:

Allow: /bitrix/*.css

Allow: /bitrix/*.js

Disallow: /bitrix/

L
На сайте с 14.03.2016
Offline
0
#626

Здравствуйте!) Надеюсь, вопрос пишу куда надо, так как его суть касается Яндекса.

СИТУАЦИЯ:

Клиент захотел новый сайт. Новый сайт сделали на другой СMS, с другой структурой и другим контентом и на другом домене. Желание клиента - продвигать именно новый домен.

Так как старый сайт имеет возраст, ссылки и трафик, но клиенту, по сути, уже не нужен - я настроил с него 301 на "близкие по сути" страницы нового сайта.

Спустя 3-4 недели в Google по запросам старого сайта стали успешно появляться страницы нового.

Но в Яндексе все равно появляется только старый, что для меня, продвигающего новый сайт, не есть повод для хорошего отчета)

Из того, что почитал, рисуется следующие вещи, которые пока мне кажутся не очень понятно совместимыми:

1) Для склейки сайтов в Яндексе нужен не 301 редирект, а дирректива host в robots;

2) Для того, чтобы host сработала - контент двух сайтов должен быть идентичным (мануал Яндекса);

ВОПРОСЫ:

1) Добьюсь ли я цели "склейки" сайтов (чтобы по общим для них запросам в выдаче Яндекса появлялся новый, а не старый), если в host старого пропишу домен нового? Несмотря на то, что у них разный контент, хоть они принадлежат одной компании?

2) Что будет, если я пропишу в host сайта домен с другим контентом? Будет ли в выдаче по запросам появляться новый домен, или не будет, а просто исчезнет из выдачи старый, или ничего не произойдет, или что-то другое случиться?

3) Или моя задача должна решаться как-то иначе, помимо 301 редиректа и записи в host? Хочу использовать максимум от старого сайта для блага нового. Желательно - полное занятие его позиций по запросам в Яндексе новым доменом. В Гугле это получилось 301 редиректом, а как быть с Яндексом?

Буду благодарен всем за ответы)

L
На сайте с 23.01.2012
Offline
99
lbj
#627

Как закрыть от индексации все страницы в разделе, а сам раздел оставить открытым?

site/razdel/page

site/razdel/page2

EN
На сайте с 05.12.2004
Offline
259
#628

lbj, когда в браузере выбираешь корень, то он отправляет на главную страницу раздела, соответственно ее оставить открытой, а все остальные закрыть.

L
На сайте с 23.01.2012
Offline
99
lbj
#629

Какой код правильный будет? Неужели нужно будет каждую страницу раздела отдельно писать

Disallow: /razdel/page2

Disallow: /razdel/page3 и т.д ?

T7
На сайте с 11.04.2010
Offline
123
#630

Друзья. Как решить такую проблему.

Есть страницы вида:

http://site.com/bla-bla/

и

http://site.com/category/bla-bla/

Так вот, каким-то образом в конец url добавились цифры и это дело проиндексировалось. Теперь у меня есть одна страница в таком виде:

http://site.com/bla-bla/6789

http://site.com/bla-bla/907090

http://site.com/bla-bla/8768769

Причем открывается одна и таже страница.

Хочу запретить индексацию всех постов с цифрами в конце. Что посоветуете?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий