Все вопросы по robots.txt

F
На сайте с 24.10.2014
Offline
11
#391
nevinskiibomzh:
Сидел мудрил, получил такой вот robots.txt для wordpress, может, что лишнее?

Сейчас насчет WP очень много споров. Говорят что гугл все равно будет это все индексировать, в итоге куча дублей попадет в так называемые "сопливый иднекс".

Рекомендуют все открыть, а с дублями бороться мета тегом robots.

Я вот сам сижу и не знаю какой robots составить.

😕

B4
На сайте с 27.04.2012
Offline
94
#392
korostelev:
Добрый день, уважаемые форумчане!

На сайте с динамически формируемыми страницами хочется закрыть для поисковиков страницы, которые формируются путем добавления в названия "простых" страниц дополнительного содержимого через тире.

К примеру, имясайта.ру/матрешка нужно индексировать, а имясайта.ру/матрешка-сапожок или имясайта.ру/матрешка-сапожок-компот индексировать и обходить не нужно. На текущий момент все "сложные" страницы имеют мета-теги noindex и теги noindex на ссылках, которые ведут к сложным страницам.

Можно ли (и как) задать правило на запрет обхода и индексирования "сложных" страниц (с тире) в robots?

Можно закрыть так:

Disallow: *-

учитывайте, закроются все урлы где есть "-"

korostelev:

Что эффективнее: использование noindex и nofollow или запрет в robots?
Возникнет ли конфликт, если "сложные" страницы будут закрыты noindex и nofollow и дополнительно для них будет задан запрет в robots?

эффективнее использовать noindex, nofollow как метатег.

---------- Добавлено 29.06.2015 в 12:09 ----------

nevinskiibomzh:
Сидел мудрил, получил такой вот robots.txt для wordpress, может, что лишнее?

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Disallow: /to/
Disallow: /&*
Disallow: />*
Disallow: /page/

Disallow: /*?*

Disallow: /*?

-одинаковые, звезды везде можно убрать, они проставляются автоматически.

K
На сайте с 24.06.2015
Offline
0
#393
bulatbulat48:
Можно закрыть так:
Disallow: *-

учитывайте, закроются все урлы где есть "-"



эффективнее использовать noindex, nofollow как метатег.

Спасибо!

---------- Добавлено 29.06.2015 в 17:12 ----------

bulatbulat48:
Можно закрыть так:
Disallow: *-

учитывайте, закроются все урлы где есть "-"

эффективнее использовать noindex, nofollow как метатег.
.



А можно ли продублировать теги nofollow (не метатеги) запретом в роботсе? Про это в помощи гугл, например, не сказано ни слова (но есть упоминание, что при работающем noindex ставить запрет в robots не рекомендуют). Не выйдет конфликта?
N
На сайте с 02.07.2015
Offline
1
#394

Добрый день,

robots.txt выглядит так:

User-Agent: *

Disallow: /bitrix/

Disallow: /cgi-bin/

Disallow: /inc/

Disallow: /include/

Disallow: /personal/

Disallow: /registration/

Disallow: /search/

Disallow: /upload/

Disallow: /verstka/

Disallow: /*?action=

Disallow: /*?FILTER_TYPE=

Disallow: /*?SECTION_CODE=

Disallow: /articles/

Sitemap: http://site.ru/sitemap.xml

Host: www.site.ru

User-Agent: Googlebot

Allow: /upload/iblock

User-Agent: Googlebot-Image

Allow: /upload/iblock

Яндекс (проверка через Вебмастер) правильно отображает, что страница /articles/, например, или любая другая, запрещена. Гугл же (проверка также через Вебмастер Гугла) утверждает, что страница доступна:

chrome-extension://jhcdlkgjiehgpnpolkbnmpffjodigbkb/editor.html

И также со всеми остальными страницами, например /search/, /include/ и так далее.

Подскажите, пожалуйста, где ошибка в файле robots, почему Гугл отвечает, что страницы доступны?

Заранее спасибо.

B4
На сайте с 27.04.2012
Offline
94
#395
Navsikaya:
Добрый день,

robots.txt выглядит так:

User-Agent: *
Disallow: /bitrix/
Disallow: /cgi-bin/
Disallow: /inc/
Disallow: /include/
Disallow: /personal/
Disallow: /registration/
Disallow: /search/
Disallow: /upload/
Disallow: /verstka/
Disallow: /*?action=
Disallow: /*?FILTER_TYPE=
Disallow: /*?SECTION_CODE=
Disallow: /articles/
Sitemap: http://site.ru/sitemap.xml
Host: www.site.ru

User-Agent: Googlebot
Allow: /upload/iblock

User-Agent: Googlebot-Image
Allow: /upload/iblock

Яндекс (проверка через Вебмастер) правильно отображает, что страница /articles/, например, или любая другая, запрещена. Гугл же (проверка также через Вебмастер Гугла) утверждает, что страница доступна:
chrome-extension://jhcdlkgjiehgpnpolkbnmpffjodigbkb/editor.html
И также со всеми остальными страницами, например /search/, /include/ и так далее.

Подскажите, пожалуйста, где ошибка в файле robots, почему Гугл отвечает, что страницы доступны?
Заранее спасибо.

Вы же ему говорите сканировать:

User-Agent: Googlebot

Allow: /upload/iblock

N
На сайте с 02.07.2015
Offline
1
#396

Почему эта директива разрешает сканировать другие разделы?

MH
На сайте с 22.07.2009
Offline
57
#397

Доброго времени суток.

Сайт на WP. На сайте есть рубрики. Часть рубрик многостраничная.

Первая страница рубрики имеет адрес такого вида:

http://имя-сайта.ru/category/имя-рубрики

последующие страницы имеют вид

http://имя-сайта.ru/category/имя-рубрики/page/1

http://имя-сайта.ru/category/имя-рубрики/page/2 и.т.д.

Хочу закрыть через роботс от индексации все последующие страницы всех рубрик кроме первой страницы. Подскажите пожалуйста, как это правильно сделать? Не очень понимаю, надо ли использовать модификатор $ в данном случае

Disallow: category/*/page*

или

Disallow: category/*$/page*

Заранее благодарю

B4
На сайте с 27.04.2012
Offline
94
#398
Navsikaya:
Почему эта директива разрешает сканировать другие разделы?

User-Agent: Googlebot (Правило для Google)

Allow: /upload/iblock (открыть данный раздел)

других правил для Google нет, значит сканирует все что хочет.

---------- Добавлено 03.07.2015 в 21:57 ----------

MadHatter77:
Доброго времени суток.

Сайт на WP. На сайте есть рубрики. Часть рубрик многостраничная.
Первая страница рубрики имеет адрес такого вида:
http://имя-сайта.ru/category/имя-рубрики
последующие страницы имеют вид
http://имя-сайта.ru/category/имя-рубрики/page/1
http://имя-сайта.ru/category/имя-рубрики/page/2 и.т.д.

Хочу закрыть через роботс от индексации все последующие страницы всех рубрик кроме первой страницы. Подскажите пожалуйста, как это правильно сделать? Не очень понимаю, надо ли использовать модификатор $ в данном случае

Disallow: category/*/page*
или
Disallow: category/*$/page*

Заранее благодарю

не корректные директивы:

Disallow: category/*/page*

Disallow: category/*$/page*

1) на $ можно только заканчивать)

2) директива начинается на * или /

3) если правильно понял, нужно такое:

Disallow: /category/rubrika/

allow: /category/rubrika/$

/category/rubrika/page/1 - запрещен

/category/rubrika/ - разрешен

AH
На сайте с 08.07.2015
Offline
9
#399

В robots.txt есть строчка Disallow: /*?*

Будет ли индексироваться страница http://site.ru/catalog_content/faq/?CATEGORY_ID=1080

E
На сайте с 26.06.2014
Offline
17
#400

Вопрос про robots такой:

Закрывать ли скрипты *.js и папки theme от индексации?

Увидел в вебмастере гугла, что он всё там заблочил, хотя для людей отображение идёт нормальное, для робота УГ. Это как-то влияет на ранжирование?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий