Как в robots.txt закрыть дубль главной с двойным слешем

306

webinfo

10 февраля 2024, 12:53

#21

livetv #:
Чтобы боты даже не пытались туда стучаться - профилактика в виде robots

Во-первых, лучше писать конкретно: боты ПС.
Во-вторых, если для яндекса это как-то сработает, то для гугла может только помешать.

Мой форум - https://webinfo.guru –Там я всегда на связи

L

238

livetv

10 февраля 2024, 12:55

#22

webinfo #:

Во-вторых, ...для гугла может только помешать.

Почему?

Действительно интересно.

W1

306

webinfo

10 февраля 2024, 13:08

#23

livetv #:

Почему?
Действительно интересно.

Это написано в документации гугла. Например:

Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Если вы не хотите, чтобы какие-либо страницы с вашего сайта были представлены в Google, добавьте на них директиву noindex или сделайте их доступными только по паролю.

Этот файл запрещает сканирование страниц, а не их индексацию. Поэтому, если страница появилась в поиске из-за наличия внешних ссылок, то запрет на сканирование её в роботсе может помешать исключению из индекса, поскольку гугл не увидит ни редиректа, ни метатега, ни каноникал, так как вообще не будет заходить на эту страницу. Таким образом, никакого "комплексного" решения не получится.
В яндексе это вроде как иначе работает.

О файлах robots.txt | Центр Google Поиска | Документация | Google for Developers

developers.google.com

В файле robots.txt содержатся инструкции, которые говорят поисковым роботам, какие URL на вашем сайте им разрешено обрабатывать. С его помощью можно ограничить количество запросов на сканирование и тем самым снизить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google...

Дубли страниц из-за параметров Гугл не обращает внимание Закрыть доступ к ссылка

L

238

livetv

10 февраля 2024, 13:12

#24

webinfo #:
так как вообще не будет заходить на эту страницу

Что и требовалось.

Если Вам этого не требовалось, то это другой случай.

W1

306

webinfo

10 февраля 2024, 13:20

#25

livetv #:

Что и требовалось.
Если Вам этого не требовалось, то это другой случай.

Чтобы исключить страницу из индекса, поскольку там есть каноникал, ноуиндекс или редирект, нужно зайти на эту страницу.
Если Вам этого не требовалось, то это другой случай.

L

238

livetv

10 февраля 2024, 13:24

#26

webinfo #:

Чтобы исключить страницу из индекса, поскольку там есть каноникал, ноуиндекс или редирект, нужно зайти на эту страницу.
Если Вам этого не требовалось, то это другой случай.

Та просто пару раз по дурости генерировалась тьма дублей (не с //). Эффективней запретить на корню на будущее даже.

А также на некоторых страницах был noindex и каноникал, но страница была в СЕРПе. Под рукой примера нет.

Ну и экономия бюджета.

Апдейт поисковой базы 05.11.2015 Оператор Info: Site: ПС robots.txt и ЧПУ

765

богоносец

10 февраля 2024, 17:26

#27

livetv #:
Disallow: /*//

Для морды - это закрывание с тройным слешем, а не с двойным.

Disallow: *// # запрет двойного (и тройного тоже) в любом месте любых урлов.

livetv #:
Чтобы боты даже не пытались туда стучаться

Сначала такие логи покажите... а потом дуйте на воду.

Не получалось у меня скормить ботам (и яндекс в этом был опять похож на гугл) урлы, отличавшиеся количеством слешей в конце... они говорили, что такой урл уже есть в индексе.

Проблемы со слешом двойной или тройной 301 https и http

L

238

livetv

11 февраля 2024, 11:21

#28

богоносец #:

Сначала такие логи покажите... а потом дуйте на воду.

Сорян. Я говорил более в общем о запрете в robots, а не именно //

А так nginx к примеру в логе 404 записывает адрес с одним /

765

богоносец

11 февраля 2024, 14:13

#29

Дело не в серваке, а в белых людях, писавших ботов... вряд ли вам оставлена возможность создания дублей типа

//домен.com

//домен.com/

//домен.com//

//домен.com/page

//домен.com/page/

//домен.com/page//

даже если везде разный контент.

Эта тема надумана / обусловлена фобиями, и примеров подобных тут вряд ли покажут.

покупка ссылок с ru "domain expired" - .ru и .com в

Что делать, чтобы попасть в ответы Google Bard

Google: E-E-A-T не является фактором ранжирования