Удаление сайта из индекса с помощью закрытия в robots.txt

12
P
На сайте с 28.01.2009
Offline
37
773

Коллеги, может кто-то сталкивался с такой ситуацией - закрываешь доступ роботу яндекса через robots.txt, в итоге в статистике в вебмастере (и в логах апача) видно, что робот практически перестает заходить (1-2 захода в день на роботс, для проверки не передумал ли я), но тем не менее из индекса не удаляются те страницы, которые были проиндексированы ранее. И так уже на протяжении 9 месяцев!!

Служба поддержки каждый раз пишет, что это связано с техническими проблемами и их специалисты уже работают над устранением. Тем не менее "воз и ныне там". За 9 месяцев можно было ребенка родить, не верю я что такая компания как яндекс не может решить столь мелкую проблему за данный срок.

Если у кого-то есть идеи как можно заставить Яндекс стереть всю информацию о своем сайте с их баз (желательно и историческую) - буду благодарен за подсказку. Не удаляя сайт, конечно же.

A
На сайте с 18.10.2013
Offline
23
#1
primh:

Если у кого-то есть идеи как можно заставить Яндекс стереть всю информацию о своем сайте с их баз (желательно и историческую) - буду благодарен за подсказку. Не удаляя сайт, конечно же.

Наиболее надежный метод, это я вам советую поработать с .htaccess, правда непонятно сколько там страниц (если очень много то будет геморно) но в целом суть такова.

Создаете страницу 404 (или любую иную заглушку) и в .htaccess настраиваете редирект всех нужных страниц, на эту страницу заглушку.

ПС не раз говорили что robots.txt это лишь рекомендация, но не панацея. А от редиректа им деваться будет некуда!

С баз понятное дело вы не удалите, но как минимум из индекса инфа выпадет. И даже при встечении всех лун, Яндекс всеравно будет держать инфу в индексе, то пользователь, перейдя по ней, будет попадать на страницу заглушки!

Большее разве что поехать на прямую в яндекс и там что то решать.

P
На сайте с 28.01.2009
Offline
37
#2

Но в этом случае и другие роботы будут обрабатывать данные страницы как 404, а этого нужно избежать.

Вроде нет же возможности настроить .htaccess только под определенного робота?

[Удален]
#3

А для чего Вам индекс в Google двух сайтов? Или где еще должен индексироваться закрытый сайт?

ValD
На сайте с 14.06.2007
Offline
146
#4
primh:
только под определенного робота?

Список роботов яндекса, кстати, есть в открытом доступе: http://help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml

Константин Валентинович
На сайте с 23.11.2013
Offline
64
primh:
Вроде нет же возможности настроить .htaccess только под определенного робота?

Конечно есть. Ключевые слова для поиска: "директивы rewritecond"

Или так в .htaccess:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} Yandex [NC]

RewriteRule .* - [R=404,L]

Можете отправлять 403 ошибку, для этого последнюю строчку меняем на

RewriteRule .* - [F,L]

Проверить работу директивы можете через сервис:

http://www.wannabrowser.ru/

Удачи!

Alipapa
На сайте с 01.02.2008
Offline
234
#6

У меня хорошо работает <meta name='robots' content='noindex' /> в секции head, всегда за 2 апа из яндекса выбрасывает. А гуглу пофиг, держит в индексе, пока в вебмастерсе не запретишь.

Биржа фриланса - простая и удобная (http://kwork.ru/ref/2541)
P
На сайте с 28.01.2009
Offline
37
#7
linweb:
А для чего Вам индекс в Google двух сайтов? Или где еще должен индексироваться закрытый сайт?

Каких двух сайтов? Мне нужно чтобы в Гугле индексировалось как и раньше, а в Яндексе нет.

Список роботов яндекса, кстати, есть в открытом доступе: http://help.yandex.ru/webmaster/robo...dex-robots.xml

Благодарю, я с ним знаком. В роботсе, может не ясно выразился, индексирование для всех роботов открыто, закрыто только для яндекса


User-agent: *
Disallow:

User-agent: YandexBot
Disallow: /


---------- Добавлено 28.11.2013 в 15:31 ----------

Константин Валентинович:
Конечно есть. Ключевые слова для поиска: "директивы rewritecond"

Или так в .htaccess:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Yandex [NC]
RewriteRule .* - [R=404,L]

Можете отправлять 403 ошибку, для этого последнюю строчку меняем на
RewriteRule .* - [F,L]

Проверить работу директивы можете через сервис:
http://www.wannabrowser.ru/

Удачи!

О, благодарю! Буду пробовать.

[Удален]
#8
У меня хорошо работает <meta name='robots' content='noindex' /> в секции head, всегда за 2 апа из яндекса выбрасывает. А гуглу пофиг, держит в индексе, пока в вебмастерсе не запретишь.

Тогда делал бы подобным образом :)

P
На сайте с 28.01.2009
Offline
37
#9
linweb:
Тогда делал бы подобным образом :)

Он наверное так и делает. Я же как-то сомневаюсь в правильности такого решения. :)

Alipapa
На сайте с 01.02.2008
Offline
234
#10

Да, я так делаю, могу живой пример показать. А сомневаться - это дело хозяйское.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий