Все вопросы по robots.txt

B4
На сайте с 27.04.2012
Offline
94
#431
luckyfish123:
как пофиксить?

а что конкретно пофиксить, напишите лучше в виде нужно закрыть от Я и G, а что должно быть открыто.

---------- Добавлено 02.09.2015 в 11:57 ----------

KasperCC:
Подскажите вопросы по поводу доменов - как правильно включить в robot.txt.
1) Если домен в зоне рф?
2) 2 домена на одном сайте

1) host: xn--d1acpjx3f.xn--p1ai

перекодировать в пуникод http://wwhois.ru/punycode.php

2) у каждого домена есть своя папка, в нее и кидайте. Если это зеркало, тогда будет один роботс в нем и указваете главный домен хостом.

Это для Яндекса, для гугла в search console.

---------- Добавлено 02.09.2015 в 11:57 ----------

KasperCC:
Подскажите вопросы по поводу доменов - как правильно включить в robot.txt.
1) Если домен в зоне рф?
2) 2 домена на одном сайте

1) host: xn--d1acpjx3f.xn--p1ai

перекодировать в пуникод http://wwhois.ru/punycode.php

2) у каждого домена есть своя папка, в нее и кидайте. Если это зеркало, тогда будет один роботс в нем и указваете главный домен хостом.

Это для Яндекса, для гугла в search console.

---------- Добавлено 02.09.2015 в 12:02 ----------

SeoNk:
Посмотрите, я правильно составил robots.txt ?
Интересует расположение директив host и sitemap, употребление https, запрет всех динамических страниц, отсутствие переводов строки. Так же на сайте есть страница https://www.site.ru/articles/ которую нужно запретить и много страниц типа: https://www.site.ru/print/page.html (которые содержат подкаталог print)

Спасибо!


User-agent: *
Disallow: /?
Disallow: /print
Disallow: /articles/
Disallow: /404.html
Host: https://www.site.ru
Sitemap: https://www.site.ru/sitemap.xml

Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru)

Disallow: /articles/

учитывайте:

закроет: www.site.ru/articles/ и откроет оставит открытым www.site.ru/articles

S
На сайте с 21.11.2011
Offline
28
#432

Прошу помочь разобраться.

Аудитор сайта написал, что "Файл robots.txt присутствует, но составлен некорректно и в нем отсутствуют некоторые необходимые директивы."

______________________________________

Сейчас у меня файл robots.txt имеет вид:

User-Agent: *

Disallow: /archiw

Allow: /

Sitemap: http://www.burovik.ru/sitemap.xml

Host: www.burovik.ru

______________________________________

У меня вопросы:

1. Какие необходимые директивы отсутствуют?

2. В Яндексе указано главное зеркало www.burovik.ru. Можно ли соединить зеркала www.burovik.ru и burovik.ru? Как? И стоит это делать?

3. Можно ли прописать редирект и Ошибку 404? Как?

luckyfish123
На сайте с 02.04.2012
Offline
32
#433
а что конкретно пофиксить, напишите лучше в виде нужно закрыть от Я и G, а что должно быть открыто.

закрыть от индексации для всех подчеркнутые урлы

B4
На сайте с 27.04.2012
Offline
94
#434
seoburovik:
Прошу помочь разобраться.
Аудитор сайта написал, что "Файл robots.txt присутствует, но составлен некорректно и в нем отсутствуют некоторые необходимые директивы."
______________________________________

Сейчас у меня файл robots.txt имеет вид:

User-Agent: *
Disallow: /archiw
Allow: /
Sitemap: http://www.burovik.ru/sitemap.xml
Host: www.burovik.ru
______________________________________

У меня вопросы:
1. Какие необходимые директивы отсутствуют?
2. В Яндексе указано главное зеркало www.burovik.ru. Можно ли соединить зеркала www.burovik.ru и burovik.ru? Как? И стоит это делать?
3. Можно ли прописать редирект и Ошибку 404? Как?

1. Тут вопрос больше к аудитору, и в зависимости от того какую он цель преследует. Роботс - служит для закрытия определенных страниц и разделов, возможно что-то лишнее, смотрите в вебмастерах яндекса и гугла.

2. Через .htaccess

3. Тоже что и в пунк 2.

N9
На сайте с 06.09.2015
Offline
21
#435
Cell:
Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам.

Базовые знания можно почерпнуть у:

Википедии
Яндекса
Google - Инструменты для веб-мастеров
Сайта robotstxt.org.ru

P.S. Проверить свой robots.txt можно по ссылкам -
в Яндекс: http://webmaster.yandex.ru/robots.xml#results
в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru

Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

Здравствуйте друзья! Подскажите, есть сайт на wp, какие папки нужно закрывать в роботс, если я закрою wp-admin, этого достаточно чтобы картинки не индексировались?

Optismile
На сайте с 30.05.2015
Offline
57
#436

Nike999, /ru/forum/634060

N9
На сайте с 06.09.2015
Offline
21
#437

Спасибо) не мог найти эту страницу)

N9
На сайте с 06.09.2015
Offline
21
#438
Optismile:
Nike999, /ru/forum/634060

еще один вопрос: если я использую disallow и allow, есть разница где ставить эти директивы?

Как должно быть:

Allow:

Disallow: или же наоборот сначала disallow

2. Если я закрываю теги, но несколько оставляю, пишется с "/" в конце или без?

Спасибо!

Anibrut
На сайте с 28.05.2014
Offline
74
#439

Здравствуйте.

Хочу уточнить следующее.

Нужно усилить поиск по изображениям в Гугл.

Есть уже robots.txt

c User-agent: *

User-Agent: Googlebot

User-Agent: Yandex

Хочу добавить

User-Agent: Googlebot-Image

Allow: /images/img

img - папка где лежат нужные изображения.

Нужно ли дописать "Allow: /images/img" для User-Agent: Googlebot?

Имеет ли значение где разместить строку User-Agent: Googlebot-Image?

B4
На сайте с 27.04.2012
Offline
94
#440
Nike999:
еще один вопрос: если я использую disallow и allow, есть разница где ставить эти директивы?
Как должно быть:
Allow:
Disallow: или же наоборот сначала disallow

2. Если я закрываю теги, но несколько оставляю, пишется с "/" в конце или без?

Спасибо!

1) если я использую disallow и allow, есть разница где ставить эти директивы?

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.

При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

2) / - закрывается урл

если нет закрытия / или конца строки $, то поисковик автоматом поставит* - все что идет после будет так же закрыто.

---------- Добавлено 01.10.2015 в 13:03 ----------

Anibrut:
Здравствуйте.
Хочу уточнить следующее.
Нужно усилить поиск по изображениям в Гугл.

Есть уже robots.txt
c User-agent: *
User-Agent: Googlebot
User-Agent: Yandex

Хочу добавить

User-Agent: Googlebot-Image
Allow: /images/img

img - папка где лежат нужные изображения.

Нужно ли дописать "Allow: /images/img" для User-Agent: Googlebot?
Имеет ли значение где разместить строку User-Agent: Googlebot-Image?

Если папка открыта для индексации, зачем её повторно открывать?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий