robots.txt vs 404

12
F2
На сайте с 08.08.2013
Offline
111
4752

На сайте +/-1000 страниц, в индекс гугла случайно попал весь шлак вордпресса — более 50 тыс страниц в индексе.

Подскажите, как заставить гугл выкинуть лишнее?

Что эффективней — запретить в robots.txt индексацию или отдавать 404 на левых страницах а в robots не запрещать?

⭐ ⭐ ⭐
ХЧ
На сайте с 27.06.2014
Offline
26
#1
flacon2000:
На сайте +/-1000 страниц, в индекс гугла случайно попал весь шлак вордпресса — более 50 тыс страниц в индексе.

Подскажите, как заставить гугл выкинуть лишнее?

Что эффективней — запретить в robots.txt индексацию или отдавать 404 на левых страницах а в robots не запрещать?

У Вас страницы уже в индексе, если Вы действительно хотите их удалить из индекса, нужно делать 404.

Только сделайте, чтобы был обрабочик 404-ой ошибки, т.е. страница с контентом не отдавалась с кодом 404.

Т.е. бот гугла получает 404 и контент о том, что нет такой страницы и это страница одинакова для всех 404-ых.

У Вас в индекс наверное принт версии страниц попали? Если так, то сначала придется их удалить из индекса через 404, а потом, запрет в роботс+noindex на этих страницах в метатегах, после чего уже делать принт-версии страниц и ссылться на них так как они уже запрещены к индексации, то в индекс не полезут, хотя гуглбот будет ходить по ним.

F2
На сайте с 08.08.2013
Offline
111
#2
ХорошийЧеловек:
Только сделайте, чтобы был обрабочик 404-ой ошибки, т.е. страница с контентом не отдавалась с кодом 404. Т.е. бот гугла получает 404 и контент о том, что нет такой страницы и это страница одинакова для всех 404-ых.

Вот тут не понял. Я могу отдавать 404-ю с кодом 404 и одинаковым содержанием. Или надо как-то иначе?

ХорошийЧеловек:
У Вас в индекс наверное принт версии страниц попали?

Нет, попали страницы вида:

/что-то/attachment/img_*

/что-то/attachment/img_*/feed

/что-то/?attachment_id*

Много...

ХЧ
На сайте с 27.06.2014
Offline
26
#3
flacon2000:
Вот тут не понял. Я могу отдавать 404-ю с кодом 404 и одинаковым содержанием. Или надо как-то иначе? .

Делаете обычную страницу типа "Ой, Страница не найдена", при этом вэб сервер возвращает код 404.

Далее, при запросе по всем этим страницам гуглбот получает 404 и эту самую страницу "Ой, Страница не найдена"

Так же, запрещаете индексацию через роботс и желательно noindex в метатегах (чтобы была информация не индексировать такие ссылки).

Я такие вещи делал, но движок был на перле. Т.е. если Вы не хотите удалять ссылки фактически, то поиграть с ботом можно, отдавая ему 404. Но для этого я написал код, которые определяет с вероятностью близкой к 100%, что зашел бот гугла. Три месяца все работало, потом почистилось и все убрал.

Но если не правильно сделать код определения, то можно схлопотать за клоакинг.

Можно конечно подвердить права на домен и ручками, но 50 000 это слишком много.

Если я правилньно понял задачу

E
На сайте с 21.09.2009
Offline
283
#4
ХорошийЧеловек:
Так же, запрещаете индексацию через роботс

Не заблуждайтесь и не вводите в заблуждение. Для гугла это не запретить индексацию, а только запретить сканирование.

F2
На сайте с 08.08.2013
Offline
111
#5
ХорошийЧеловек:
Если я правилньно понял задачу

Спасибо огромное, буду пробовать!

E
На сайте с 21.09.2009
Offline
283
#6

flacon2000, как Вы собираетесь отдавать 404 для существующих страниц? Тут только один вариант, закрыть все, что можно метатегом ноиндекс и ждать вылета из индекса. Специального инструмента удаления 50к+ страниц нет. Можно пачками только каталоги удалять и все.

F2
На сайте с 08.08.2013
Offline
111
#7
easywind:
flacon2000, как Вы собираетесь отдавать 404 для существующих страниц? Тут только один вариант, закрыть все, что можно метатегом ноиндекс и ждать вылета из индекса. Специального инструмента удаления 50к+ страниц нет. Можно пачками только каталоги удалять и все.

Мне не нужны эти страницы в индексе. Эти страницы WP создает зачем-то...

E
На сайте с 21.09.2009
Offline
283
#8

flacon2000, Вы не показываете какие именно страницы. На ВП много чего есть причем не удаляемо. Я и написал что делать.

F2
На сайте с 08.08.2013
Offline
111
#9
easywind:
flacon2000, Вы не показываете какие именно страницы. На ВП много чего есть причем не удаляемо. Я и написал что делать.

Писал выше:

/что-то/attachment/img_*

/что-то/attachment/img_*/feed

/что-то/?attachment_id*

Вроде все это отлично закрывается плагином YOAST. Но, я сделал ошибку и закрыл в robots.txt эти страницы от сканирования, соответственно гугл не мог узнать что они 404 и не удалял их уже месяц.

Сейчас:

1. Открыл доступ в robots.txt

2. Отдаю 404 страницу по этим URL

3. Добавил <meta name="robots" content="noindex"/> в 404

Все верно?

E
На сайте с 21.09.2009
Offline
283
#10
flacon2000:
Сейчас:
1. Открыл доступ в robots.txt
2. Отдаю 404 страницу по этим URL
3. Добавил <meta name="robots" content="noindex"/> в 404

Все верно?

Да кроме пункта 3. В 404 страницу, не делают ноиндекс. Гугл и так поймет по заголовку (не титлу) что это страница техническая.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий