Как в robots.txt закрыть дубль главной с двойным слешем

1 23
W1
На сайте с 22.01.2021
Offline
285
#21
livetv #:
Чтобы боты даже не пытались туда стучаться - профилактика в виде robots

Во-первых, лучше писать конкретно: боты ПС.
Во-вторых, если для яндекса это как-то сработает, то для гугла может только помешать.

Мой форум - https://webinfo.guru –Там я всегда на связи
L
На сайте с 10.02.2015
Offline
221
#22
webinfo #:

Во-вторых, ...для гугла может только помешать.

Почему?

Действительно интересно.

W1
На сайте с 22.01.2021
Offline
285
#23
livetv #:

Почему?
Действительно интересно.

Это написано в документации гугла. Например:

Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Если вы не хотите, чтобы какие-либо страницы с вашего сайта были представлены в Google, добавьте на них директиву noindex или сделайте их доступными только по паролю.

Этот файл запрещает сканирование страниц, а не их индексацию. Поэтому, если страница появилась в поиске из-за наличия внешних ссылок, то запрет на сканирование её в роботсе может помешать исключению из индекса, поскольку гугл не увидит ни редиректа, ни метатега, ни каноникал, так как вообще не будет заходить на эту страницу. Таким образом, никакого "комплексного" решения не получится.
В яндексе это вроде как иначе работает.

О файлах robots.txt | Центр Google Поиска  |  Документация  |  Google for Developers
О файлах robots.txt | Центр Google Поиска  |  Документация  |  Google for Developers
  • developers.google.com
В файле robots.txt содержатся инструкции, которые говорят поисковым роботам, какие URL на вашем сайте им разрешено обрабатывать. С его помощью можно ограничить количество запросов на сканирование и тем самым снизить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google...
L
На сайте с 10.02.2015
Offline
221
#24
webinfo #:
так как вообще не будет заходить на эту страницу

Что и требовалось.

Если Вам этого не требовалось, то это другой случай.

W1
На сайте с 22.01.2021
Offline
285
#25
livetv #:

Что и требовалось.
Если Вам этого не требовалось, то это другой случай.

Чтобы исключить страницу из индекса, поскольку там есть каноникал, ноуиндекс или редирект, нужно зайти на эту страницу.
Если Вам этого не требовалось, то это другой случай.

L
На сайте с 10.02.2015
Offline
221
#26
webinfo #:

Чтобы исключить страницу из индекса, поскольку там есть каноникал, ноуиндекс или редирект, нужно зайти на эту страницу.
Если Вам этого не требовалось, то это другой случай.

Та просто пару раз по дурости генерировалась тьма дублей (не с //). Эффективней запретить на корню на будущее даже.

А также на некоторых страницах был noindex и каноникал, но страница была в СЕРПе. Под рукой примера нет.

Ну и экономия бюджета.

богоносец
На сайте с 30.01.2007
Offline
753
#27
livetv #:
Disallow: /*//

Для морды - это закрывание с тройным слешем, а не с двойным.

Disallow: *// # запрет двойного (и тройного тоже) в любом месте любых урлов. 

livetv #:
Чтобы боты даже не пытались туда стучаться

Сначала такие логи покажите... а потом дуйте на воду.  

Не получалось у меня скормить ботам (и яндекс в этом был опять похож на гугл) урлы, отличавшиеся количеством слешей в конце... они говорили, что такой урл уже есть в индексе.

L
На сайте с 10.02.2015
Offline
221
#28
богоносец #:

Сначала такие логи покажите... а потом дуйте на воду.  

Сорян. Я говорил более в общем о запрете в robots, а не именно //

А так nginx к примеру в логе 404 записывает адрес с одним /

богоносец
На сайте с 30.01.2007
Offline
753
#29
Дело не в серваке, а в белых людях, писавших ботов... вряд ли вам оставлена возможность создания дублей типа
//домен.com
//домен.com/
//домен.com//

//домен.com/page
//домен.com/page/
//домен.com/page//
даже если везде разный контент. 

Эта тема надумана / обусловлена фобиями, и примеров подобных тут вряд ли покажут.
1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий