- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день, коллеги
Мне необходимо удалить из индекса все файлы DOC и PDF которые туда попали. При этом хотелось бы чтобы сами файлы остались доступны для пользователя. Совсем удалять их не хочу.
Вопрос: как это сделать?
Насколько знаю, самый надежный способ удаления страниц - установка тегов Robots, но их невозможно поставить в эти документы (или возможно?)
Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет
Благодарю за советы и мнения
Закрывайте ветку с файлами, например:
Disallow: /files/
Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет
Чего? Сначала закройте, потом будете подчищать урлы.
---------- Добавлено 30.05.2019 в 17:04 ----------
P.S. А для надежной защиты нужно убирать из паблика, т.е. давать доступ только авторизованным пользователям.
---------- Добавлено 30.05.2019 в 17:10 ----------
P.P.S. Чтобы не подчищать урлы, можно перенести файлы (изменить адреса) в др. закрытую ветку. При условии, что есть возможность сообщить интересующимся об изменениях.
достаточно добавить Disallow: *.pdf в роботс и ничего не подчищать, со временем само пропадет. файлы не трогать, урлы нигде не удалять. на гугл этот метод работает
EvilBabayka, добавить в .htaccess:
<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Ingref, спасибо за дельный совет
Поскольку мне надо закрывать только от Гугл, то привожу здесь свой полный код, авось кому пригодиться
<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
SetEnvIfNoCase User-Agent ".*Google.*" x_tag=yes
<FilesMatch "\.(doc|pdf|txt|xls)$">
Header set X-Robots-Tag “noindex” env=x_tag
</FilesMatch>
</IfModule>
</IfModule>
Только вот теперь не пойму, при отправке на переобход в GSC получаю ошибку
так и должно быть? Это реакция на тег или я что-то неправильно сделал?
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:
<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
</IfModule>
</IfModule>
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:
Вы чертовски правы! Не учел.
Ваш код мне кажется более элегантным, но у меня почему то выдает ошибку. Пока не могу понять в чем дело
Слушайте, ну не могу победить никак
Есть такая проблема:
Через .htaccess пытаюсь выдавать
X-Robots-Tag: googlebot: noindex
Однако, используя конструкцию
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
Удаётся вывести только тег без пробела межу googlebot и noindex:
X-Robots-Tag: googlebot:noindex
Если оставлять пробел то сервер выдаёт ошибку .htaccess
Вопросы:
1. Гугл воспримет тег без пробела или проигнорирует?
2. Если проигнорирует, то как вписать в .htaccess с пробелом?
Спасибо
Может в кавычках проблема? Попробуйте кавычки сделать не фигурными “ ”, а обычными " ". Ну и потом проверьте, какой реально HTTP-ответ отдаётся сервером.
Кто бы знал что двойные кавычки тоже бывают разными
Вроде получилось, отправил на переобход, теперь будем ждать реакцию Гугла
Good afternoon, colleagues
I need to remove from the index all DOC and PDF files that are included there. At the same time, I would like the files themselves to remain accessible to the user. I don't want to remove them completely.
Question: how to do this?
As far as I know, the most reliable way to delete pages is to install Robots tags, but it is impossible to put them in these documents (or is it possible?)
Other methods don't work:
robots.txt - ignored by Google, at least for regular pages, maybe not ignored for such documents?
deleting via a URL removal tool without deleting the files themselves will not help
Thanks for the advice and opinions
You're right, removing pages from the index while keeping the files accessible requires different approaches than traditional deletion methods. Here's how to handle your situation:
1. Prevent Indexing with Robots Meta Tag:
While robots.txt might not be ideal, robots meta tags within the documents themselves can be effective for this purpose. Here's what you need to do:
This tag instructs search engines not to index the specific page containing the meta tag.
2. Use "noindex" in HTTP Headers (if applicable):
For server-side control, if your web server allows, you can also add the X-Robots-Tag: noindex header to the HTTP response for each DOC and PDF file. This approach might be more efficient if you have numerous files.
3. Password Protect Sensitive Files (optional):
If specific files contain sensitive information and you want to restrict access beyond search engines, consider password-protecting them using your web server's functionalities or the software you use to create these files.
4. Submit Removal Requests for Already Indexed Files:
While preventing future indexing is crucial, you also need to handle already indexed files. Use Google Search Console's URL removal tool to request removal of specific URLs (DOC and PDF file links) from the search index. This process might take some time, but it will eventually remove the pages from search results.
Important Note:
By combining these techniques, you can effectively prevent DOC and PDF files from appearing in search results while maintaining access for authorized users.
However, if you want to edit or delete pdf pages - here is the free tool you can check- https://pdfup.com/ru/delete-pdf-pages/file