Как убрать из индексации файлы .doc

12
A7
На сайте с 15.07.2007
Offline
161
2994

Подскажите пожалуйста, на моем сайте огромное кол-во проиндексированных документов .doc

Насколько я понимаю, они мешают.

Прописал в robots.txt

User-agent: *

Disallow: /*.doc

Попытался удалить в яндексе при помощи формы http://webmaster.yandex.ru/delurl.xml

но ответ

Документ www.moy-sait.ru/Latviisk-vizy.doc не может быть удален из базы Яндекса, так как он возвращает код, отличный от 404, и не запрещен в /robots.txt. Нет оснований для удаления.

Что я делаю не так и как мне избавится от этих страниц?

Цахес
На сайте с 15.03.2007
Offline
205
#1

acid777, поместите все .doc файлы в одну директорию и запретите её к индексации в robots.txt.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
Дмитрий
На сайте с 23.08.2006
Offline
199
#2
User-agent: *
Disallow: /*.doc

Это неправильная конструкция. Если все файлы в одном каталоге - закройте каталог. Иначе - придется закрывать каждый файл. В роботсе нельзя файлы по маске закрывать.

Попробуйте поисковикам отдать заголовок не ворд-документа, например 'Content-Type: application/octet-stream'

Разрабатываю и автоматизирую на php http://jonnyb.ru/
A7
На сайте с 15.07.2007
Offline
161
#3

а как это сделать?

AVV
На сайте с 31.07.2006
Offline
84
AVV
#4

acid777, вот этого будет вполне достаточно:


User-agent: *
Disallow: /catalog/

как правильно сказали JonnyB и Цахес: закройте каталог.

Дмитрий
На сайте с 23.08.2006
Offline
199
#5

Алгоритм такой:

htaccess: вместо 111.doc открывать /fix.php?file=111.doc

fix.php:


header('Content-Type: application/octet-stream');
readfile($_GET['file']);

Нужно добавить проверку на то, что в $_GET['file'] - путь к док файлу, а не напримр к index.php (рег выражения плохо знаю)

AVV
На сайте с 31.07.2006
Offline
84
AVV
#6

Можно закрыть еще посредством mod_rewrite

.htaccess


RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Yandex [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^StackRambler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Aport [NC,OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [NC]
RewriteRule .*\.doc$ - [F,L]
A7
На сайте с 15.07.2007
Offline
161
#7
AVV:
Можно закрыть еще посредством mod_rewrite

.htaccess

И что поисковики их индексировать не будут?

AVV
На сайте с 31.07.2006
Offline
84
AVV
#8

Для них будет 403 - Forbidden. Доступ к файлам .doc запрещен.

Для всех остальных нет.

A7
На сайте с 15.07.2007
Offline
161
#9

RewriteCond %{HTTP_USER_AGENT} Slurp [NC,OR]

Это google.ru

и google.com и все остальные google

Я правильно понимаю?

Revan
На сайте с 09.09.2005
Offline
321
#10

acid777, это Yahoo

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий