Закрыть страницы в robots. Txt - Вопросы новичков в SEO - Практические вопросы оптимизации

0

anna1levickaya

16 сентября 2019, 20:42

#321

Здравствуйте!

Подскажите пожалуйста, было дело, мы поставили модуль для SEO, а он нам наплодил непонятную кучу дублей. На сайте у нас стоит Opencart 2.3.

Стандартные закрыты вот так и все нормально:

Disallow: /*?page=

Disallow: /*&page=

А сейчас мы имеем дубли такого вида:

https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5

https://сайт.ру/категория/подкатегория/подкатегория/page-8

Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

Битрикс / шаблоны meta Почему в Яндексе Вебмастере На новом сайте страницы

TM

101

t-master

26 сентября 2019, 08:14

#322

anna1levickaya:
сейчас мы имеем дубли такого вида:

https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5

https://сайт.ру/категория/подкатегория/подкатегория/page-8

Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

А такое не срабатывает?

Disallow: /*/page-

https://www.itavr.ru

250

WebAlt

26 сентября 2019, 08:52

#323

https://сайт.ру/категория/page-3

https://сайт.ру/категория/подкатегория/page-5

https://сайт.ру/категория/подкатегория/подкатегория/page-8

anna1levickaya:
Как правильно закрыть такие страницы в robots.txt? Чтобы гугл их выплюнул

Disallow: /*page-

Анализ robots.txt Google

Анализ robots.txt Яндекс

V

105

Vtoroy

27 сентября 2019, 07:16

#324

помогите, как правильно настроить роботс для сайта на Opencart

пациент webasto.**pro

А-ап, и тигры у ног моих сели...

N2

54

neva2012

22 октября 2019, 17:05

#325

Сейчас разработчики тем WP предлагают свой robots.txt

и он очень лаконичен:

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-json/

Disallow: /xmlrpc.php

Disallow: /readme.html

Disallow: /*?

Disallow: /?s=

Allow: /*.css

Allow: /*.js

54

Ivan Glukhov

5 ноября 2019, 10:40

#326

Подскажите, что прописать для закрытия от индексации страниц, CMS Wordpress.

А то генерирует отдельный URL для каждого изображения.

Пишу о Яндекс.Директе - ( https://xn----8sbbfdb7cdxe8cya.xn--p1ai/ )

G

34

goldyd

13 ноября 2019, 16:31

#327

Подскажите как закрыть в robots.txt ссылки типа:

domen../ru/10332-recept-prigotovlenija-ku-poshagovii-s-foto/edit

в конце - /edit

🍻

так? Disallow: /edit/ ?

333

XPraptor

13 ноября 2019, 21:59

#328

Правило обработки строк стандартное для регуярок.

Disallow: /*/edit/

Но учитывайте со слэшем или без в конце закрываете (/*/edit$ или вообще если есть /edit в любом месте: /*/edit*)

Если хотите отсечь в конце строку, то добавляйте $, чтобы совпадения не искались дальше.

W

0

Wegl

14 ноября 2019, 12:24

#329

Из своих недавних наблюдений могу сказать, что записи в robots.txt полезны только если они вносятся ДО индексации ненужных страниц поисковиками. Если индексация уже прошла, то запись disallow делает только хуже! Гугл потом выдает предупреждение "indexed though blocked by robots.txt" и не увидит даже 301 редиректа если вы его поставите на страницу) Ну может месяца через 3-4 он и решит убрать страницу с индекса, но это так-себе timeframe.

Я после наблюдений изложенных выше убрал вообще все записи в robots.txt (кроме сайтмапа) и делаю теперь так:

1) Возвращаю HTTP Header "X-Robots-Tag: noindex". В принципе этого должно быть достаточно – в отличии от мета тегов которые гугл воспринимает как рекомендацию, HTTP Header X-Robots-Tag он воспринимает как директиву. Все же, так как поисковиков много и так как никто не знает как гугл будет обрабатывать эти хедеры в будущем делаю еще пару пунктов.

2) Ставлю meta тег no index.

3) Если речь идет о страницах типа "?sort=" со всякими сортировками фильтрами – canonical указывающую на главную страницу категории в meta теге и в HTTP Header.

Не знаю, может я и не прав, но я не вижу чем все эти disallow могут быть лучше чем правильно прописанные noindex :)

1

G

34

goldyd

14 ноября 2019, 13:07

#330

XPraptor:
Правило обработки строк стандартное для регуярок.
Disallow: /*/edit/

Но учитывайте со слэшем или без в конце закрываете (/*/edit$ или вообще если есть /edit в любом месте: /*/edit*)

Если хотите отсечь в конце строку, то добавляйте $, чтобы совпадения не искались дальше.

спасибо. в моем случае - для варианта, где /edit в конце , пример : domen../ru/10332-recept-prigotovlenija-ku-poshagovii-s-foto/edit

будет - Disallow: /*/edit$

я верно понял вас?

Что такое Power BI и зачем это нужно бизнесу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все вопросы по robots.txt - 2