Удаление из индекса Google файлов DOC и PDF

12
EvilBabayka
На сайте с 18.06.2016
Offline
90
1146

Добрый день, коллеги

Мне необходимо удалить из индекса все файлы DOC и PDF которые туда попали. При этом хотелось бы чтобы сами файлы остались доступны для пользователя. Совсем удалять их не хочу.

Вопрос: как это сделать?

Насколько знаю, самый надежный способ удаления страниц - установка тегов Robots, но их невозможно поставить в эти документы (или возможно?)

Остальные методы не работают:

robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?

удалять через инструмент удаления URL без удаления самих файлов не поможет

Благодарю за советы и мнения

M
На сайте с 04.12.2013
Offline
223
#1

Закрывайте ветку с файлами, например:

Disallow: /files/

EvilBabayka:

Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет

Чего? Сначала закройте, потом будете подчищать урлы.

---------- Добавлено 30.05.2019 в 17:04 ----------

P.S. А для надежной защиты нужно убирать из паблика, т.е. давать доступ только авторизованным пользователям.

---------- Добавлено 30.05.2019 в 17:10 ----------

P.P.S. Чтобы не подчищать урлы, можно перенести файлы (изменить адреса) в др. закрытую ветку. При условии, что есть возможность сообщить интересующимся об изменениях.

Домены и скрипт для коротких ссылок: https://u75.ru/domains-for-shortcuts
W
На сайте с 08.02.2017
Offline
169
#2

достаточно добавить Disallow: *.pdf в роботс и ничего не подчищать, со временем само пропадет. файлы не трогать, урлы нигде не удалять. на гугл этот метод работает

Комплексный аудит ИМ. Формирование УТП, анализ юзабилити, каналов продвижения. Контекстная реклама, настройка систем аналитики. Консультация - бесплатно, в ЛС
Станислав Романенко
На сайте с 05.09.2007
Offline
325

EvilBabayka, добавить в .htaccess:


<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
EvilBabayka
На сайте с 18.06.2016
Offline
90
#4

Ingref, спасибо за дельный совет

Поскольку мне надо закрывать только от Гугл, то привожу здесь свой полный код, авось кому пригодиться


<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
SetEnvIfNoCase User-Agent ".*Google.*" x_tag=yes
<FilesMatch "\.(doc|pdf|txt|xls)$">
Header set X-Robots-Tag “noindex” env=x_tag
</FilesMatch>
</IfModule>
</IfModule>

Только вот теперь не пойму, при отправке на переобход в GSC получаю ошибку

так и должно быть? Это реакция на тег или я что-то неправильно сделал?

Станислав Романенко
На сайте с 05.09.2007
Offline
325

У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.

Для Гугла по идее вот так можно:


<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
</IfModule>
</IfModule>
EvilBabayka
На сайте с 18.06.2016
Offline
90
#6
Ingref:
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:

Вы чертовски правы! Не учел.

Ваш код мне кажется более элегантным, но у меня почему то выдает ошибку. Пока не могу понять в чем дело

EvilBabayka
На сайте с 18.06.2016
Offline
90
#7

Слушайте, ну не могу победить никак

Есть такая проблема:

Через .htaccess пытаюсь выдавать

X-Robots-Tag: googlebot: noindex

Однако, используя конструкцию

<FilesMatch "\.(doc|pdf|xls)$">

Header set X-Robots-Tag “googlebot: noindex”

</FilesMatch>

Удаётся вывести только тег без пробела межу googlebot и noindex:

X-Robots-Tag: googlebot:noindex

Если оставлять пробел то сервер выдаёт ошибку .htaccess

Вопросы:

1. Гугл воспримет тег без пробела или проигнорирует?

2. Если проигнорирует, то как вписать в .htaccess с пробелом?

Спасибо

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#8

Может в кавычках проблема? Попробуйте кавычки сделать не фигурными “ ”, а обычными " ". Ну и потом проверьте, какой реально HTTP-ответ отдаётся сервером.

EvilBabayka
На сайте с 18.06.2016
Offline
90
#9

Кто бы знал что двойные кавычки тоже бывают разными

Вроде получилось, отправил на переобход, теперь будем ждать реакцию Гугла

J3
На сайте с 29.02.2024
Offline
0
#10
EvilBabayka :

Good afternoon, colleagues

I need to remove from the index all DOC and PDF files that are included there. At the same time, I would like the files themselves to remain accessible to the user. I don't want to remove them completely.

Question: how to do this?

As far as I know, the most reliable way to delete pages is to install Robots tags, but it is impossible to put them in these documents (or is it possible?)

Other methods don't work:

robots.txt - ignored by Google, at least for regular pages, maybe not ignored for such documents?

deleting via a URL removal tool without deleting the files themselves will not help

Thanks for the advice and opinions

You're right, removing pages from the index while keeping the files accessible requires different approaches than traditional deletion methods. Here's how to handle your situation:

1. Prevent Indexing with Robots Meta Tag:

While robots.txt might not be ideal, robots meta tags within the documents themselves can be effective for this purpose. Here's what you need to do:

  • Open each DOC and PDF file.
  • Edit the file properties or metadata (depending on the software).
  • Look for a section related to "robots" or "indexing."
  • Add the following meta tag:
<meta name="robots" content="noindex">

This tag instructs search engines not to index the specific page containing the meta tag.

2. Use "noindex" in HTTP Headers (if applicable):

For server-side control, if your web server allows, you can also add the X-Robots-Tag: noindex header to the HTTP response for each DOC and PDF file. This approach might be more efficient if you have numerous files.

3. Password Protect Sensitive Files (optional):

If specific files contain sensitive information and you want to restrict access beyond search engines, consider password-protecting them using your web server's functionalities or the software you use to create these files.

4. Submit Removal Requests for Already Indexed Files:

While preventing future indexing is crucial, you also need to handle already indexed files. Use Google Search Console's URL removal tool to request removal of specific URLs (DOC and PDF file links) from the search index. This process might take some time, but it will eventually remove the pages from search results.

Important Note:

  • Implementing these methods doesn't guarantee immediate removal from search results. Search engines revisit and re-index content periodically, so it might take some time for the changes to take effect.   
  • Remember, these methods prevent indexing, not access. Users can still access the files directly if they know the specific URLs.

By combining these techniques, you can effectively prevent DOC and PDF files from appearing in search results while maintaining access for authorized users.

However, if you want to edit or delete pdf pages - here is the free tool you can check- https://pdfup.com/ru/delete-pdf-pages/file

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий