Все вопросы по robots.txt

X
На сайте с 28.10.2015
Offline
0
#461

Здравствуйте.

Простой вопрос:

Распространяются ли правила robots.txt на содержимое внутри прикрепленного sitemap.xml?

Например:

Disallow: /folder1/

Sitemap: site.ru/sitemap.xml

В содержимом sitemap будет присутствовать этот /folder1/

Где приоритет выше? У правил роботс или в содержимом карты сайта?

U
На сайте с 02.11.2009
Offline
74
#462

Подскажите пожалуйста, если в роботсе под Googlebot делаешь Allow определенного контента, а дальше идет правило под User-agent: *, где есть ряд строчек с Disallow, то будет ли этот Disallow распространятся под Googlebot, за исключением того, что прописано под него в Allow.

Другими слова, нет ли тут конфликта и будет ли работать универсальный Disallow под гуглбот?

User-Agent: Googlebot

Allow: /wp-content/themes/*.css

Allow: /wp-content/plugins/*.css

Allow: /wp-content/uploads/*.css

Allow: /wp-content/themes/*.js

Allow: /wp-content/plugins/*.js

Allow: /wp-content/uploads/*.js

Allow: /wp-includes/css/

Allow: /wp-includes/js/

Allow: /wp-includes/images/

User-agent: *

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-content/uploads

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: */comments

Disallow: /comments

Disallow: /*?*

Disallow: */page*

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?attachment*

Disallow: /*?replytocom*

Disallow: /trackback

Такие манипуляции провожу потому, что гугл "Googlebot не может получить доступ к файлам CSS и JS на сайте"

luckyfish123
На сайте с 02.04.2012
Offline
32
#463

всем привет. помогите с проблемой

есть форум на вобле, на нем такая же как здесь структура, разделы.

тк вот, в последнее время много стало подобных страниц

forum.ru/forumdisplay.php=107&daysprune=-1&order=desc&sort=views&pp=20&page=5

вопрос: как закрыть от индексации все урлы, где встречается слово "daysprune"

Optismile
На сайте с 30.05.2015
Offline
57
#464

luckyfish123,

Disallow: /*daysprune*

SG
На сайте с 26.10.2015
Offline
3
#465

Добрый день.

Вот такое сообщение получил в гугл тулс:

Робот Googlebot не может обработать код JavaScript и/или файлы CSS из-за ограничений в файле robots.txt

посмотрите плиз:

User-Agent: *

Disallow: /*search

Disallow: /*page=

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

User-agent: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Clean-param: tracking

Optismile
На сайте с 30.05.2015
Offline
57
#466

SerdGoreliy2, похоже на опенкарт, попробуйте убрать строку

Disallow: /catalog

SG
На сайте с 26.10.2015
Offline
3
#467

Да, опенкарт) попробую, спасибо)

Хотя Гугл подчеркивает ошибкой нижнею строчку:

Clean-param: tracking

Странно, она ведь вообще ни к нему относится, а к яндексу

Anibrut
На сайте с 28.05.2014
Offline
74
#468
xavikz:
Где приоритет выше? У правил роботс или в содержимом карты сайта?

По моим наблюдениям у robots.txt. Ну для пущей верности сотрите те строки из sitemap.xml да и будет вам счастье.

---------- Добавлено 04.11.2015 в 16:42 ----------

SerdGoreliy2:
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /system

Я бы в этих папках поискала наличие JavaScript и CSS файлов и все.

---------- Добавлено 04.11.2015 в 16:48 ----------

Элиос:
Подскажите, нужно ли убрать какие либо папки из файла робот.тхт?

Убрать

Disallow: /images/

Disallow: /templates/

A
На сайте с 11.09.2013
Offline
32
#469

Пример.

У меня есть страницы "Итальянские часы", URL - site.com/italianwatch

При этом в поиске появляются страницы типа: site.com/italianwatch/25%аримиова536/ и так далее

Мне нужно как то запретить индексацию всех таких страниц и оставить одну версию - site.com/italianwatch, при этом чтобы с тех страниц, что я указал были редиректы на основные.\

Что прописывать в robot.txt?

SEO тексты (/ru/forum/863019) в большом объеме для вас. Наполняем большие порталы за считанные дни!
Anibrut
На сайте с 28.05.2014
Offline
74
#470

Awertiks,

User-agent: *

Disallow: /italianwatch/* - закроет все что после italianwatch

Allow: /italianwatch/$ - разрешает только italianwatch

По поводу редиректа это в htaccess.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий