Все вопросы по robots.txt

akorneev
На сайте с 20.01.2017
Offline
61
#881
Largass:
Скажите, я правильно понимаю, что вот такой robots.txt

User-Agent: *
Allow: /learn/prestuplenie-protiv-sobstvennoy-zhizni/
Allow: /learn/5-prichin-pochemu-ty-ne-otlichnik/
Disallow: /
Host: www.домен.ru


запретит индексировать весь сайт, но даст проиндексировать две страницы:
www.домен.ru/learn/prestuplenie-protiv-sobstvennoy-zhizni/ и
www.домен.ru/learn/5-prichin-pochemu-ty-ne-otlichnik/
????

Или так делать нельзя - закрыть от индексации ВЕСЬ сайт и инструкциями allow открывать только некоторые страницы?

Заранее спасибо за ответы.

Для уверенности лучше поменять местами Disallow и Allow.

Т.е. сначала запретить все, а потом указать исключения.

Размещение ссылок в группе строительный сайтов. Строгий лимит кол-ва внешних. Без бирж и левых ссылок. ✔ Оплата только после полезного эффекта! (/ru/forum/1016660)
L
На сайте с 05.02.2017
Offline
1
#882
Devkeyz:
Инструмент в Я.Вебмастер и Google Search Console проверки robots.txt дает возможность проверить ваш роботс, введя интересующий урл сайта, попробуйте, уж они точно не обманят.

В том-то и дело, что я проверил этот роботс.тхт в Я.Вебмастере и он мне радостно написал "ноль ошибок". Я также проверил отдельные ссылки на открытость - и Я.Вебмастер показал, что те две, которые мне нужно открыть - открыты, а все остальные - закрыты. То есть все должно работать. Но не работает! Среди ошибок сайта по-прежнему висит фатальная ошибка:

При последнем обращении к файлу robots.txt было обнаружено, что сайт закрыт для индексации. Убедитесь в корректности файла robots.txt, иначе сайт может полностью пропасть из поиска.
Проверьте robots.txt и снимите установленный запрет.

И в статистике страниц в индексе - 0.

Причем это не старые данные - я после изменения в роботс.тхт запустил проверку этой фатальной ошибки - и он опять ее нашел. :(

Не могу понять, что за ерунда... Поэтому и спрашиваю - это вообще нормальная идея: закрыть весь сайт полностью, но открыть несколько конкретных страниц? Или это некорректно и так делать нельзя в принципе?

---------- Добавлено 17.02.2017 в 14:21 ----------

akorneev:
Для уверенности лучше поменять местами Disallow и Allow.
Т.е. сначала запретить все, а потом указать исключения.

Хм... Но ведь в инструкции по роботс.тхт от яндекса написано, что порядок директив не важен, а кроме того - приоритет директив аллоу, выше чем у дизаллоу.

Цитата:

Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

Так что по идее в этом проблемы быть не должно.

Ну я на всякий случай последовал вашему совету и поменял. А то мало ли, с яндексом всякое бывает... :)

А вообще сама идея такого роботс.тхт нормальна - запретить весь сайт, но открыть только пару ссылок? Это в принципе может работать?

Andrei
На сайте с 22.10.2012
Offline
76
#883

Добрый вечер.

Подскажите как запретить поисковикам индексацию такого вида страниц в Robots.txt?

/complete-works/%3Cspan%20class=?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=27

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#884

Disallow: /*span

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
Andrei
На сайте с 22.10.2012
Offline
76
#885

Спасибо. И такого вида

/complete-works?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=1

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#886

Disallow: /*field_

S
На сайте с 27.02.2017
Offline
15
#887

Добрый день!

Подскажите, пожалуйста правильный и самый современный файл robots.txt для WP на 2017. На сайтах все авторы приводят разные примеры.

1) Нужно ли в robots в карте сайта использовать 2 варианта (или сейчас достаточно sitemap.xml ?)

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap.xml.gz

2) Правильно ли, что требования Google и Yandex к robots различаются? Не все поисковые роботы одинаково следуют правилам в robots ?

3) Составленный файл сначала нужно загружать в Яндекс Вебмастер, а затем в Google Вебмастер ?

4) Для сайта нужно закрыть раздел авторизации wp-admin / wp-login, (понятно, что это нужно сделать disallow:/wp-login.php), но для безопасности в настройке WP страница авторизации имеет собственный URL, (например site.ru/*****), где -***** - название для авторизации на сайте. Что следует указывать в robots.txt, чтобы эта страница не индексировалась роботами.

5) Где можно посмотреть названия всех роботов, чтобы некоторым запретить доступ к сайту через disallow.

C ув. Spektrof

adel92
На сайте с 04.01.2012
Offline
334
#888

По порядку, о том что знаю:

1 - достаточно одного варианта xml

2 - нет, должна быть секция для ботов поисковиков и секция для всех остальных - этого чаще всего достаточно.

3- не имеет абсолютно никакого значения

NVMe VDS (https://well-web.net/nvme-vps) с поддержкой 24/7 - от 545 руб.! Безлимитный хостинг (https://well-web.net/ssd-hosting) - от 129 руб.! Домен в подарок! Перенос бесплатно! Заказывайте сейчас, и получите скидку 50%! Заходи! (https://well-web.net/limited-offers)
S2
На сайте с 06.02.2017
Offline
37
#889

Если у меня сайт на https, как мне прописывать директиву host???

Host: https://mysite.com

или

Host: mysite.com

Спасибо

AlexStep
На сайте с 23.03.2009
Offline
354
#890
styx23:
Если у меня сайт на https, как мне прописывать директиву host???
Host: https://mysite.com
или
Host: mysite.com
Спасибо

Первый вариант.

Директива Host должна содержать:
Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru).

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий