Все вопросы по robots.txt - 2

A1
На сайте с 16.09.2019
Offline
0
#321

Здравствуйте!

Подскажите пожалуйста, было дело, мы поставили модуль для SEO, а он нам наплодил непонятную кучу дублей. На сайте у нас стоит Opencart 2.3.

Стандартные закрыты вот так и все нормально:

Disallow: /*?page=

Disallow: /*&page=

А сейчас мы имеем дубли такого вида:

https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5
https://сайт.ру/категория/подкатегория/подкатегория/page-8

Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

TM
На сайте с 07.02.2007
Offline
101
#322
anna1levickaya:
сейчас мы имеем дубли такого вида:
https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5
https://сайт.ру/категория/подкатегория/подкатегория/page-8


Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

А такое не срабатывает?

Disallow: /*/page-
WebAlt
На сайте с 02.12.2007
Offline
250
#323

https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5
https://сайт.ру/категория/подкатегория/подкатегория/page-8
anna1levickaya:
Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

Disallow: /*page-

Анализ robots.txt Google

Анализ robots.txt Яндекс

V
На сайте с 06.12.2010
Offline
105
#324

помогите, как правильно настроить роботс для сайта на Opencart

пациент webasto.**pro

А-ап, и тигры у ног моих сели...
N2
На сайте с 10.08.2015
Offline
54
#325

Сейчас разработчики тем WP предлагают свой robots.txt

и он очень лаконичен:

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-json/

Disallow: /xmlrpc.php

Disallow: /readme.html

Disallow: /*?

Disallow: /?s=

Allow: /*.css

Allow: /*.js

Ivan Glukhov
На сайте с 05.11.2019
Offline
54
#326

Подскажите, что прописать для закрытия от индексации страниц, CMS Wordpress.

А то генерирует отдельный URL для каждого изображения.

Пишу о Яндекс.Директе - ( https://xn----8sbbfdb7cdxe8cya.xn--p1ai/ )
G
На сайте с 21.10.2015
Offline
34
#327

Подскажите как закрыть в robots.txt ссылки типа:

domen../ru/10332-recept-prigotovlenija-ku-poshagovii-s-foto/edit

в конце - /edit

🍻

так? Disallow: /edit/ ?

XPraptor
На сайте с 15.10.2004
Offline
333
#328

Правило обработки строк стандартное для регуярок.

Disallow: /*/edit/

Но учитывайте со слэшем или без в конце закрываете (/*/edit$ или вообще если есть /edit в любом месте: /*/edit*)

Если хотите отсечь в конце строку, то добавляйте $, чтобы совпадения не искались дальше.

W
На сайте с 14.11.2019
Offline
0
#329

Из своих недавних наблюдений могу сказать, что записи в robots.txt полезны только если они вносятся ДО индексации ненужных страниц поисковиками. Если индексация уже прошла, то запись disallow делает только хуже! Гугл потом выдает предупреждение "indexed though blocked by robots.txt" и не увидит даже 301 редиректа если вы его поставите на страницу) Ну может месяца через 3-4 он и решит убрать страницу с индекса, но это так-себе timeframe.

Я после наблюдений изложенных выше убрал вообще все записи в robots.txt (кроме сайтмапа) и делаю теперь так:

1) Возвращаю HTTP Header "X-Robots-Tag: noindex". В принципе этого должно быть достаточно – в отличии от мета тегов которые гугл воспринимает как рекомендацию, HTTP Header X-Robots-Tag он воспринимает как директиву. Все же, так как поисковиков много и так как никто не знает как гугл будет обрабатывать эти хедеры в будущем делаю еще пару пунктов.

2) Ставлю meta тег no index.

3) Если речь идет о страницах типа "?sort=" со всякими сортировками фильтрами – canonical указывающую на главную страницу категории в meta теге и в HTTP Header.

Не знаю, может я и не прав, но я не вижу чем все эти disallow могут быть лучше чем правильно прописанные noindex :)

G
На сайте с 21.10.2015
Offline
34
#330
XPraptor:
Правило обработки строк стандартное для регуярок.
Disallow: /*/edit/

Но учитывайте со слэшем или без в конце закрываете (/*/edit$ или вообще если есть /edit в любом месте: /*/edit*)

Если хотите отсечь в конце строку, то добавляйте $, чтобы совпадения не искались дальше.

спасибо. в моем случае - для варианта, где /edit в конце , пример : domen../ru/10332-recept-prigotovlenija-ku-poshagovii-s-foto/edit

будет - Disallow: /*/edit$

я верно понял вас?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий