Удаление из индекса Google файлов DOC и PDF

EvilBabayka
На сайте с 18.06.2016
Offline
66
719

Добрый день, коллеги

Мне необходимо удалить из индекса все файлы DOC и PDF которые туда попали. При этом хотелось бы чтобы сами файлы остались доступны для пользователя. Совсем удалять их не хочу.

Вопрос: как это сделать?

Насколько знаю, самый надежный способ удаления страниц - установка тегов Robots, но их невозможно поставить в эти документы (или возможно?)

Остальные методы не работают:

robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?

удалять через инструмент удаления URL без удаления самих файлов не поможет

Благодарю за советы и мнения

M
На сайте с 04.12.2013
Offline
189
#1

Закрывайте ветку с файлами, например:

Disallow: /files/

EvilBabayka:

Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет

Чего? Сначала закройте, потом будете подчищать урлы.

---------- Добавлено 30.05.2019 в 17:04 ----------

P.S. А для надежной защиты нужно убирать из паблика, т.е. давать доступ только авторизованным пользователям.

---------- Добавлено 30.05.2019 в 17:10 ----------

P.P.S. Чтобы не подчищать урлы, можно перенести файлы (изменить адреса) в др. закрытую ветку. При условии, что есть возможность сообщить интересующимся об изменениях.

Хостинг FOZZY ( http://fozzy.com.ru ) / Выслушаю предложения на домены ( http://u75.ru/domains-for-sale ) / Домены и скрипт для коротких ссылок ( http://u75.ru/domains-for-shortcuts )
W
На сайте с 08.02.2017
Offline
159
#2

достаточно добавить Disallow: *.pdf в роботс и ничего не подчищать, со временем само пропадет. файлы не трогать, урлы нигде не удалять. на гугл этот метод работает

Комплексный аудит ИМ. Формирование УТП, анализ юзабилити, каналов продвижения. Контекстная реклама, настройка систем аналитики. Консультация - бесплатно, в ЛС
Станислав Романенко
На сайте с 05.09.2007
Offline
321

EvilBabayka, добавить в .htaccess:


<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
EvilBabayka
На сайте с 18.06.2016
Offline
66
#4

Ingref, спасибо за дельный совет

Поскольку мне надо закрывать только от Гугл, то привожу здесь свой полный код, авось кому пригодиться


<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
SetEnvIfNoCase User-Agent ".*Google.*" x_tag=yes
<FilesMatch "\.(doc|pdf|txt|xls)$">
Header set X-Robots-Tag “noindex” env=x_tag
</FilesMatch>
</IfModule>
</IfModule>

Только вот теперь не пойму, при отправке на переобход в GSC получаю ошибку

так и должно быть? Это реакция на тег или я что-то неправильно сделал?

Станислав Романенко
На сайте с 05.09.2007
Offline
321

У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.

Для Гугла по идее вот так можно:


<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
</IfModule>
</IfModule>
EvilBabayka
На сайте с 18.06.2016
Offline
66
#6
Ingref:
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:

Вы чертовски правы! Не учел.

Ваш код мне кажется более элегантным, но у меня почему то выдает ошибку. Пока не могу понять в чем дело

EvilBabayka
На сайте с 18.06.2016
Offline
66
#7

Слушайте, ну не могу победить никак

Есть такая проблема:

Через .htaccess пытаюсь выдавать

X-Robots-Tag: googlebot: noindex

Однако, используя конструкцию

<FilesMatch "\.(doc|pdf|xls)$">

Header set X-Robots-Tag “googlebot: noindex”

</FilesMatch>

Удаётся вывести только тег без пробела межу googlebot и noindex:

X-Robots-Tag: googlebot:noindex

Если оставлять пробел то сервер выдаёт ошибку .htaccess

Вопросы:

1. Гугл воспримет тег без пробела или проигнорирует?

2. Если проигнорирует, то как вписать в .htaccess с пробелом?

Спасибо

Станислав Романенко
На сайте с 05.09.2007
Offline
321
#8

Может в кавычках проблема? Попробуйте кавычки сделать не фигурными “ ”, а обычными " ". Ну и потом проверьте, какой реально HTTP-ответ отдаётся сервером.

EvilBabayka
На сайте с 18.06.2016
Offline
66
#9

Кто бы знал что двойные кавычки тоже бывают разными

Вроде получилось, отправил на переобход, теперь будем ждать реакцию Гугла

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий