- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как дата-аналитику правильно презентовать себя будущему работодателю
Что рассказывать и показывать в портфолио
Оксана Мамчуева

Заказы с Авито можно будет получать и отправлять через ПВЗ Яндекс Маркета
Уже в октябре
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день, коллеги
Мне необходимо удалить из индекса все файлы DOC и PDF которые туда попали. При этом хотелось бы чтобы сами файлы остались доступны для пользователя. Совсем удалять их не хочу.
Вопрос: как это сделать?
Насколько знаю, самый надежный способ удаления страниц - установка тегов Robots, но их невозможно поставить в эти документы (или возможно?)
Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет
Благодарю за советы и мнения
Закрывайте ветку с файлами, например:
Disallow: /files/
Остальные методы не работают:
robots.txt - игнорируется Гуглом, по крайней мере для обычных страниц, может для таких документов не игнорируется?
удалять через инструмент удаления URL без удаления самих файлов не поможет
Чего? Сначала закройте, потом будете подчищать урлы.
---------- Добавлено 30.05.2019 в 17:04 ----------
P.S. А для надежной защиты нужно убирать из паблика, т.е. давать доступ только авторизованным пользователям.
---------- Добавлено 30.05.2019 в 17:10 ----------
P.P.S. Чтобы не подчищать урлы, можно перенести файлы (изменить адреса) в др. закрытую ветку. При условии, что есть возможность сообщить интересующимся об изменениях.
достаточно добавить Disallow: *.pdf в роботс и ничего не подчищать, со временем само пропадет. файлы не трогать, урлы нигде не удалять. на гугл этот метод работает
EvilBabayka, добавить в .htaccess:
<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Ingref, спасибо за дельный совет
Поскольку мне надо закрывать только от Гугл, то привожу здесь свой полный код, авось кому пригодиться
<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
SetEnvIfNoCase User-Agent ".*Google.*" x_tag=yes
<FilesMatch "\.(doc|pdf|txt|xls)$">
Header set X-Robots-Tag “noindex” env=x_tag
</FilesMatch>
</IfModule>
</IfModule>
Только вот теперь не пойму, при отправке на переобход в GSC получаю ошибку
так и должно быть? Это реакция на тег или я что-то неправильно сделал?
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:
<IfModule mod_headers.c>
<IfModule mod_setenvif.c>
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
</IfModule>
</IfModule>
У вас там ещё указано "txt" - тогда он не сможет получить доступ к robots.txt.
Для Гугла по идее вот так можно:
Вы чертовски правы! Не учел.
Ваш код мне кажется более элегантным, но у меня почему то выдает ошибку. Пока не могу понять в чем дело
Слушайте, ну не могу победить никак
Есть такая проблема:
Через .htaccess пытаюсь выдавать
X-Robots-Tag: googlebot: noindex
Однако, используя конструкцию
<FilesMatch "\.(doc|pdf|xls)$">
Header set X-Robots-Tag “googlebot: noindex”
</FilesMatch>
Удаётся вывести только тег без пробела межу googlebot и noindex:
X-Robots-Tag: googlebot:noindex
Если оставлять пробел то сервер выдаёт ошибку .htaccess
Вопросы:
1. Гугл воспримет тег без пробела или проигнорирует?
2. Если проигнорирует, то как вписать в .htaccess с пробелом?
Спасибо
Может в кавычках проблема? Попробуйте кавычки сделать не фигурными “ ”, а обычными " ". Ну и потом проверьте, какой реально HTTP-ответ отдаётся сервером.
Кто бы знал что двойные кавычки тоже бывают разными
Вроде получилось, отправил на переобход, теперь будем ждать реакцию Гугла