Запрет в robots.txt

Александр · 2018-10-21T13:46:06.0000000Z

Коллеги, помогите разобраться с правилами в robots.txt Вопрос в следующем. На сайте есть статьи (site.ru/article1), у статьи есть комменты и возможность на комменты отвечать (ссылка для ответа на коммент). Соответственно при переходе по ссылке получается вот такой урл: site.ru/comment/article1/reply (в коде имеется ссылка на каноническую страницу site.ru/article1) Коллеги, нужно ли в robots.txt прописывать запрещающее правило для comment/* или директивы canonical = "site.ru/article1" достаточно? Благодарю за ответы.

69

JuniorVov

22 октября 2018, 11:20

#11

aleksandrbol:
у меня помимо каноникла там ещё и <meta name="robots" content="noindex, follow" />

Такие мета теги, как мета роботс ноиндекс вместе с кононикалом так же лучше не использовать вместе, ведь они противоречат друг другу.

У вас есть грубо говоря 3 варианта

1) Запретить индексацию через файл роботс и убрать каноникал.

+ <meta name="robots" content="noindex, follow" />, уже будет лишним и будет противоречить записи в роботсе так как указано что по ссылкам краулеру переходить можно.

2) Либо же просто убрать каноникал так как у вас странички уже закрыты в "мета роботс" и этого будет достаточно

3) Либо же не закрывать от индексации, а оставить только каноникал

Вот здесь можно почитать почему нежелательно смешивать сигналы "каноникал" и "мета робост"

1

canonical для пагинаций индексация страниц категори в Пагинация в ИМ закрытая/открытая

371

Александр

22 октября 2018, 13:23

#12

JuniorVov, спасибо! Буду разбираться.

Осталось разобраться с пагинацией. Как вы считаете, на страницах пагинации должен быть каноникал на первую страницу, или у каждой страницы пагинации должен быть свой урл каноникал.

К примеру site.ru/blog?page=3 должна иметь canonical = "site.ru/blog" или site.ru/blog?page=3 должна иметь canonical = "site.ru/blog?page=3"

Спасибо.

Сайты на WordPress тут просто летают! (https://vk.cc/atAGUU)

774

богоносец

22 октября 2018, 13:34

#13

Да прочитайте вы хелпы про костыли rel=canonical — это какую страницу из похожих/дублей надо показывать в выдаче (страницы пагинации — не дубли, вообще говоря, но содержат сцылки, т.е. возможно влияние на индексацию). Индексацией должен управлять другой набор... хлама, не rel=canonical

JuniorVov:
он прийдет туда вспомнит что в роботсе ему говорили не индексируй и на этом его путешествие на этой странице закончиться, но если он увидет там каноникал то начнет сомневаться, мол если её не нужно индексировать то почему здесь важная для меня информация в виде каноникал.

Напишите олгоритмы упомянутых вами терминов:

вспомнит
увидет
сомневаться

Если вам удастся написать код этой человечины — озолотитесь. Или убьют по канону...

1

Закрыть от индексации или Страницы пагинации (?page=1) (canonical) Использование атрибута rel="next|previous"

69

JuniorVov

22 октября 2018, 13:54

#14

aleksandrbol:
К примеру site.ru/blog?page=3 должна иметь canonical = "site.ru/blog"

Я так делаю.

богоносец, вы грамоте учите или SEO занимаетесь?

богоносец:
Индексацией должен управлять другой набор... хлама, не rel=canonical

Какой например? А то сказал что "ребята вы тут херней занимаетесь, а я знаю как правильно но нескажу, сами почитайте" так что, будь те добры поделитесь опытом и расскажите как надо, а то пока, от вас толку как от прогона по белым каталогам за 100рублей)

1

Никак не получается с Помогите понять за счет Почему может пргон по

774

богоносец

23 октября 2018, 03:38

#15

Как надо?

Надо подсовывать боту (и в коде, и в сайтмапе) лишь те сцылки, которые имеет смысл индексить.

Количество обращений к сайту ограничено...

т.е. если бот скачал страницу, обнаружил там meta-robots-noindex или rel=canonical-другой-урл

это фактически означает замедление индексации того, что надо индексить.

Когда же хотят на страницах пагинации указать rel=canonical-категория|первая-страница

то:

это же не обязательно дубль, тексты могут отличаться...

Если кто-то хочет выкинуть из индекса страницы пагинации, то надо подумать — есть ли вообще сцылки на все страницы сайта (с других страниц), это может влиять на их индексацию.

1

rel canonical Стоит ли делать открытие Многомиллионностраничный динамический сайт -

371

Александр

23 октября 2018, 04:32

#16

богоносец:
т.е. если бот скачал страницу, обнаружил там meta-robots-noindex или rel=canonical-другой-урл
это фактически означает замедление индексации того, что надо индексить.

Есть такое.

богоносец:
Когда же хотят на страницах пагинации указать rel=canonical-категория|первая-страница
то:
это же не обязательно дубль, тексты могут отличаться...

Практически всегда отличаются, но тогда нужно ли их вообще индексировать. Тут вот я задумался....

богоносец:
Если кто-то хочет выкинуть из индекса страницы пагинации, то надо подумать — есть ли вообще сцылки на все страницы сайта (с других страниц), это может влиять на их индексацию.

Зачем в индексе страницы пагинации? Можно же прописать noindex follow Ссылки на них есть как минимум с sitemap.xml

Вы закрываете от индексации Яндекс не правильно определяет rel-canonical уже не нужен?

774

богоносец

23 октября 2018, 05:56

#17

В sitemap.xml не ссылки, а упоминание урлов/дат/... вес через них не насчитывается.

А хоть какие-то сцылки (<a href="/page">) могут быть учтены в расчете веса страницы /page (что на их индексацию может влиять).

Поэтому, если у вас нет в индексе пагинации, сделайте HTML-карту сайта для людей (и пр. ботов).

А так да, в выдаче страницы пагинации не нужны... но их не так уж и много.

DLE CatFace 2.0 - Влияние упоминания урла на Страницы пагинации (?page=1) (canonical)

371

Александр

18 декабря 2018, 07:43

#18

богоносец:
В sitemap.xml не ссылки, а упоминание урлов/дат/... вес через них не насчитывается.

А хоть какие-то сцылки (<a href="/page">) могут быть учтены в расчете веса страницы /page (что на их индексацию может влиять).
Поэтому, если у вас нет в индексе пагинации, сделайте HTML-карту сайта для людей (и пр. ботов).
А так да, в выдаче страницы пагинации не нужны... но их не так уж и много.

Тут скорей всего HTML-карта нужна для ботов, люди по ним давно уже не ходят.

Что делать, если ваша email-рассылка попала в спам

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов