Что нужно сделать закрыть весь сайт полностью, но открыть несколько конкретных страниц? - Вопросы новичков в SEO

Cell · 2013-12-12T21:37:04.0000000Z

Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам. Базовые знания можно почерпнуть у: Википедии Яндекса Google - Инструменты для веб-мастеров Сайта robotstxt.org.ru P.S. Проверить свой robots.txt можно по ссылкам - в Яндекс: http://webmaster.yandex.ru/robots.xml#results в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

61

akorneev

16 февраля 2017, 22:54

#881

Largass:
Скажите, я правильно понимаю, что вот такой robots.txt

User-Agent: *
Allow: /learn/prestuplenie-protiv-sobstvennoy-zhizni/
Allow: /learn/5-prichin-pochemu-ty-ne-otlichnik/
Disallow: /
Host: www.домен.ru

запретит индексировать весь сайт, но даст проиндексировать две страницы:
www.домен.ru/learn/prestuplenie-protiv-sobstvennoy-zhizni/ и
www.домен.ru/learn/5-prichin-pochemu-ty-ne-otlichnik/
????

Или так делать нельзя - закрыть от индексации ВЕСЬ сайт и инструкциями allow открывать только некоторые страницы?

Заранее спасибо за ответы.

Для уверенности лучше поменять местами Disallow и Allow.

Т.е. сначала запретить все, а потом указать исключения.

Размещение ссылок в группе строительный сайтов. Строгий лимит кол-ва внешних. Без бирж и левых ссылок. ✔ Оплата только после полезного эффекта! (/ru/forum/1016660)

L

1

Largass

17 февраля 2017, 11:13

#882

Devkeyz:
Инструмент в Я.Вебмастер и Google Search Console проверки robots.txt дает возможность проверить ваш роботс, введя интересующий урл сайта, попробуйте, уж они точно не обманят.

В том-то и дело, что я проверил этот роботс.тхт в Я.Вебмастере и он мне радостно написал "ноль ошибок". Я также проверил отдельные ссылки на открытость - и Я.Вебмастер показал, что те две, которые мне нужно открыть - открыты, а все остальные - закрыты. То есть все должно работать. Но не работает! Среди ошибок сайта по-прежнему висит фатальная ошибка:

При последнем обращении к файлу robots.txt было обнаружено, что сайт закрыт для индексации. Убедитесь в корректности файла robots.txt, иначе сайт может полностью пропасть из поиска.
Проверьте robots.txt и снимите установленный запрет.

И в статистике страниц в индексе - 0.

Причем это не старые данные - я после изменения в роботс.тхт запустил проверку этой фатальной ошибки - и он опять ее нашел. :(

Не могу понять, что за ерунда... Поэтому и спрашиваю - это вообще нормальная идея: закрыть весь сайт полностью, но открыть несколько конкретных страниц? Или это некорректно и так делать нельзя в принципе?

---------- Добавлено 17.02.2017 в 14:21 ----------

akorneev:
Для уверенности лучше поменять местами Disallow и Allow.
Т.е. сначала запретить все, а потом указать исключения.

Хм... Но ведь в инструкции по роботс.тхт от яндекса написано, что порядок директив не важен, а кроме того - приоритет директив аллоу, выше чем у дизаллоу.

Цитата:

Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

Так что по идее в этом проблемы быть не должно.

Ну я на всякий случай последовал вашему совету и поменял. А то мало ли, с яндексом всякое бывает... :)

А вообще сама идея такого роботс.тхт нормальна - запретить весь сайт, но открыть только пару ссылок? Это в принципе может работать?

Все вопросы по robots.txt Вопрос с открытием страницы Новые стандарты для директивы

76

Andrei

25 февраля 2017, 16:57

#883

Добрый вечер.

Подскажите как запретить поисковикам индексацию такого вида страниц в Robots.txt?

/complete-works/%3Cspan%20class=?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=27

325

Станислав Романенко

25 февраля 2017, 17:25

#884

Disallow: /*span

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).

76

Andrei

28 февраля 2017, 16:50

#885

Спасибо. И такого вида

/complete-works?field_auto_brand_tid=All&field_work_type_tid=All&field_city_tid=All&page=1

325

Станислав Романенко

28 февраля 2017, 17:19

#886

Disallow: /*field_

S

15

Spektrof

3 марта 2017, 12:00

#887

Добрый день!

Подскажите, пожалуйста правильный и самый современный файл robots.txt для WP на 2017. На сайтах все авторы приводят разные примеры.

1) Нужно ли в robots в карте сайта использовать 2 варианта (или сейчас достаточно sitemap.xml ?)

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap.xml.gz

2) Правильно ли, что требования Google и Yandex к robots различаются? Не все поисковые роботы одинаково следуют правилам в robots ?

3) Составленный файл сначала нужно загружать в Яндекс Вебмастер, а затем в Google Вебмастер ?

4) Для сайта нужно закрыть раздел авторизации wp-admin / wp-login, (понятно, что это нужно сделать disallow:/wp-login.php), но для безопасности в настройке WP страница авторизации имеет собственный URL, (например site.ru/*****), где -***** - название для авторизации на сайте. Что следует указывать в robots.txt, чтобы эта страница не индексировалась роботами.

5) Где можно посмотреть названия всех роботов, чтобы некоторым запретить доступ к сайту через disallow.

C ув. Spektrof

Подскажите пожалуйста по robots Запрет на индексацию Googlе Все вопросы по robots.txt

A9

317

adel92

3 марта 2017, 13:38

#888

По порядку, о том что знаю:

1 - достаточно одного варианта xml

2 - нет, должна быть секция для ботов поисковиков и секция для всех остальных - этого чаще всего достаточно.

3- не имеет абсолютно никакого значения

https://hstq.net - аренда серверов от 9.99$! Нет KYC! Много стран размещения на выбор! Акция - удвоим оплаченный период! Заказывайте!

Помогите с robots.txt Специалисты, не проверите ли Как убрать из индекса

S2

37

styx23

5 марта 2017, 19:31

#889

Если у меня сайт на https, как мне прописывать директиву host???

Host: https://mysite.com

или

Host: mysite.com

Спасибо

353

AlexStep

5 марта 2017, 19:35

#890

styx23:
Если у меня сайт на https, как мне прописывать директиву host???
Host: https://mysite.com
или
Host: mysite.com
Спасибо

Первый вариант.

Директива Host должна содержать:
Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru).

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host

1

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все вопросы по robots.txt