Закройте через роботс от индексации все последующие страницы рубрик - Вопросы новичков в SEO

Все вопросы по robots.txt

Cell · 2013-12-12T21:37:04.0000000Z

Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам. Базовые знания можно почерпнуть у: Википедии Яндекса Google - Инструменты для веб-мастеров Сайта robotstxt.org.ru P.S. Проверить свой robots.txt можно по ссылкам - в Яндекс: http://webmaster.yandex.ru/robots.xml#results в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

F

11

Fullq

27 июня 2015, 16:34

#391

nevinskiibomzh:
Сидел мудрил, получил такой вот robots.txt для wordpress, может, что лишнее?

Сейчас насчет WP очень много споров. Говорят что гугл все равно будет это все индексировать, в итоге куча дублей попадет в так называемые "сопливый иднекс".

Рекомендуют все открыть, а с дублями бороться мета тегом robots.

Я вот сам сижу и не знаю какой robots составить.

😕

Robots для Гугла Дубли страниц и как Мета тег robots

B4

94

bulatbulat48

29 июня 2015, 08:07

#392

korostelev:
Добрый день, уважаемые форумчане!

На сайте с динамически формируемыми страницами хочется закрыть для поисковиков страницы, которые формируются путем добавления в названия "простых" страниц дополнительного содержимого через тире.

К примеру, имясайта.ру/матрешка нужно индексировать, а имясайта.ру/матрешка-сапожок или имясайта.ру/матрешка-сапожок-компот индексировать и обходить не нужно. На текущий момент все "сложные" страницы имеют мета-теги noindex и теги noindex на ссылках, которые ведут к сложным страницам.

Можно ли (и как) задать правило на запрет обхода и индексирования "сложных" страниц (с тире) в robots?

Можно закрыть так:

Disallow: *-

учитывайте, закроются все урлы где есть "-"

korostelev:

Что эффективнее: использование noindex и nofollow или запрет в robots?
Возникнет ли конфликт, если "сложные" страницы будут закрыты noindex и nofollow и дополнительно для них будет задан запрет в robots?

эффективнее использовать noindex, nofollow как метатег.

---------- Добавлено 29.06.2015 в 12:09 ----------

nevinskiibomzh:
Сидел мудрил, получил такой вот robots.txt для wordpress, может, что лишнее?

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Disallow: /to/
Disallow: /&*
Disallow: />*
Disallow: /page/

Disallow: /*?*

Disallow: /*?

-одинаковые, звезды везде можно убрать, они проставляются автоматически.

Как избавиться от дублирования Яндекс не учитывает noindex Запрет в robots.txt

K

0

korostelev

29 июня 2015, 12:29

#393

bulatbulat48:
Можно закрыть так:
Disallow: *-

учитывайте, закроются все урлы где есть "-"

эффективнее использовать noindex, nofollow как метатег.

Спасибо!

---------- Добавлено 29.06.2015 в 17:12 ----------

bulatbulat48:
Можно закрыть так:
Disallow: *-

учитывайте, закроются все урлы где есть "-"

эффективнее использовать noindex, nofollow как метатег.
.

А можно ли продублировать теги nofollow (не метатеги) запретом в роботсе? Про это в помощи гугл, например, не сказано ни слова (но есть упоминание, что при работающем noindex ставить запрет в robots не рекомендуют). Не выйдет конфликта?

А что с аддурилкой Вопрос по метатегу meta Закрыл дубли страниц ,Какие

N

1

Navsikaya

2 июля 2015, 10:56

#394

Добрый день,

robots.txt выглядит так:

User-Agent: *

Disallow: /bitrix/

Disallow: /cgi-bin/

Disallow: /inc/

Disallow: /include/

Disallow: /personal/

Disallow: /registration/

Disallow: /search/

Disallow: /upload/

Disallow: /verstka/

Disallow: /*?action=

Disallow: /*?FILTER_TYPE=

Disallow: /*?SECTION_CODE=

Disallow: /articles/

Sitemap: http://site.ru/sitemap.xml

Host: www.site.ru

User-Agent: Googlebot

Allow: /upload/iblock

User-Agent: Googlebot-Image

Allow: /upload/iblock

Яндекс (проверка через Вебмастер) правильно отображает, что страница /articles/, например, или любая другая, запрещена. Гугл же (проверка также через Вебмастер Гугла) утверждает, что страница доступна:

chrome-extension://jhcdlkgjiehgpnpolkbnmpffjodigbkb/editor.html

И также со всеми остальными страницами, например /search/, /include/ и так далее.

Подскажите, пожалуйста, где ошибка в файле robots, почему Гугл отвечает, что страницы доступны?

Заранее спасибо.

После обновления выдачи пропала проблемы с robots.txt Не индексируются картинки гуглом,

B4

94

bulatbulat48

2 июля 2015, 14:27

#395

Navsikaya:
Добрый день,

robots.txt выглядит так:

User-Agent: *
Disallow: /bitrix/
Disallow: /cgi-bin/
Disallow: /inc/
Disallow: /include/
Disallow: /personal/
Disallow: /registration/
Disallow: /search/
Disallow: /upload/
Disallow: /verstka/
Disallow: /*?action=
Disallow: /*?FILTER_TYPE=
Disallow: /*?SECTION_CODE=
Disallow: /articles/
Sitemap: http://site.ru/sitemap.xml
Host: www.site.ru

User-Agent: Googlebot
Allow: /upload/iblock

User-Agent: Googlebot-Image
Allow: /upload/iblock

Яндекс (проверка через Вебмастер) правильно отображает, что страница /articles/, например, или любая другая, запрещена. Гугл же (проверка также через Вебмастер Гугла) утверждает, что страница доступна:
chrome-extension://jhcdlkgjiehgpnpolkbnmpffjodigbkb/editor.html
И также со всеми остальными страницами, например /search/, /include/ и так далее.

Подскажите, пожалуйста, где ошибка в файле robots, почему Гугл отвечает, что страницы доступны?
Заранее спасибо.

Вы же ему говорите сканировать:

User-Agent: Googlebot

Allow: /upload/iblock

N

1

Navsikaya

2 июля 2015, 14:40

#396

Почему эта директива разрешает сканировать другие разделы?

MH

57

MadHatter77

2 июля 2015, 20:12

#397

Доброго времени суток.

Сайт на WP. На сайте есть рубрики. Часть рубрик многостраничная.

Первая страница рубрики имеет адрес такого вида:

http://имя-сайта.ru/category/имя-рубрики

последующие страницы имеют вид

http://имя-сайта.ru/category/имя-рубрики/page/1

http://имя-сайта.ru/category/имя-рубрики/page/2 и.т.д.

Хочу закрыть через роботс от индексации все последующие страницы всех рубрик кроме первой страницы. Подскажите пожалуйста, как это правильно сделать? Не очень понимаю, надо ли использовать модификатор $ в данном случае

Disallow: category/*/page*

или

Disallow: category/*$/page*

Заранее благодарю

Небольшой вопрос по Роботс.тхт Закрыть от индексации страницы Закрывать в роботсе категории

B4

94

bulatbulat48

3 июля 2015, 17:52

#398

Navsikaya:
Почему эта директива разрешает сканировать другие разделы?

User-Agent: Googlebot (Правило для Google)

Allow: /upload/iblock (открыть данный раздел)

других правил для Google нет, значит сканирует все что хочет.

---------- Добавлено 03.07.2015 в 21:57 ----------

MadHatter77:
Доброго времени суток.

Сайт на WP. На сайте есть рубрики. Часть рубрик многостраничная.
Первая страница рубрики имеет адрес такого вида:
http://имя-сайта.ru/category/имя-рубрики
последующие страницы имеют вид
http://имя-сайта.ru/category/имя-рубрики/page/1
http://имя-сайта.ru/category/имя-рубрики/page/2 и.т.д.

Хочу закрыть через роботс от индексации все последующие страницы всех рубрик кроме первой страницы. Подскажите пожалуйста, как это правильно сделать? Не очень понимаю, надо ли использовать модификатор $ в данном случае

Disallow: category/*/page*
или
Disallow: category/*$/page*

Заранее благодарю

не корректные директивы:

Disallow: category/*/page*

Disallow: category/*$/page*

1) на $ можно только заканчивать)

2) директива начинается на * или /

3) если правильно понял, нужно такое:

Disallow: /category/rubrika/

allow: /category/rubrika/$

/category/rubrika/page/1 - запрещен

/category/rubrika/ - разрешен

1

оптимизация robots.txt Не показывается реклама на Помогите с robots.txt

AH

9

art-helicon

8 июля 2015, 19:15

#399

В robots.txt есть строчка Disallow: /*?*

Будет ли индексироваться страница http://site.ru/catalog_content/faq/?CATEGORY_ID=1080

E

17

Erlick

13 июля 2015, 07:32

#400

Вопрос про robots такой:

Закрывать ли скрипты *.js и папки theme от индексации?

Увидел в вебмастере гугла, что он всё там заблочил, хотя для людей отображение идёт нормальное, для робота УГ. Это как-то влияет на ранжирование?

нужно ли закрывать от Вопрос про robots php файлы в robots

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все вопросы по robots.txt