Как удалить 22000 страниц из индекса без robot.txt ?

A
На сайте с 03.06.2010
Offline
24
551

Вышел небывалый казус с настройками сервера -

/ru/forum/800041

В индексе гугл числится 21800 страниц дубликатов с ip номером вместо главного домена.

Каким образом их можно удалить ?

robots.txt в этом случае вроде нельзя использовать

через панель вебмастера 22000 тоже нереально выкинуть.

Как можно было бы лучше всего удалить все страницы с номером сервера вместо ip ?

L5
На сайте с 11.10.2009
Offline
65
La5
#1

Для начала, поставьте 301 редирект с http://ip на http://site.com

Для апача это можно сделать с помощью .htaccess, примерно так:


RewriteCond %{HTTP_HOST} !^www.site.com
RewriteRule (.*) http://www.site.com/$1 [R=301,L]
Если я Вам помог, не забывайте ставить + в карму!
A
На сайте с 03.06.2010
Offline
24
#2

Спасибо.

Сначала сделал на php в стиле

if($_SERVER['HTTP_HOST']!='host.com'){ header('Location: http://host.com'.$_SERVER['REQUEST_URI'], true, 301);exit(); }

потом поменял на ваш вариант.

L5
На сайте с 11.10.2009
Offline
65
La5
#3
alimbey:
Спасибо.
Сначала сделал на php в стиле
if($_SERVER['HTTP_HOST']!='host.com'){ header('Location: http://host.com'.$_SERVER['REQUEST_URI'], true, 301);exit(); }
потом поменял на ваш вариант.

Ну, как это реализовано для ПС без разницы. Ждите переиндексации. Если в разумный срок страницы не уйдут, останется два варианта:

1) Отказаться от переходов на http://ip, отдавая для этих страниц 404. Наверное, можно даже отдавать 404 с помощью header(), а саму страницу показывать. Но тут надо у тех "кто в курсе" поинтересоваться не воспримет ли ПС это как клоакинг.

2) Сделать скрипт, для автоудаления url-ов через вебмастер. Чтоб не заморачиваться с авторизациями, сессиями и прочей фигней, скрипт можно написать для GreaseMonkey, войти в аккаунт на нужную страницу, а он пусть уже отсылает поочередно url-ы. Если он будете добавлять по 2 url-а в минуту, то добавите все за пару ночей. Тут правда я не знаю, может там есть какие-то ограничения на кол-во url-ов.

Но, я думаю, что 301 редирект - это правильный выход. Может, еще есть смысл добавить в robots.txt:

Host: www.site.com

чтобы указать главное зеркало для Яндекса, если там такая же история..

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий