Как выкинуть 404 страницы из индекса

12 3
K
На сайте с 09.02.2006
Offline
116
1781

С гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут истуация обратная.

Есть domen.com, пару лет на нем был вялотекущий форум, форум я перевез на новое место а на домене поставил шоп. Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится.

И вот тут появилась проблема с индексом. На момент переезда в индексе было около 100к страниц.

Я поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.

Казалось бы сщас станет все как в сказке, но нет

В данный момент, по site:domen.com находит 389,000 страниц. Ждать дальше смысла нет, уже 3 месяца прошло.

дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно)

В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз, в sitemap.xml из 3700 страниц проиндексено только 526.

Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.

Пробовал спросить в блоге , но ответов пока нет.

Может серч чем то поможет ? Как выкинуть это мусор из индекса?

D0
На сайте с 28.01.2008
Offline
48
#1

Если эти страницы являются точками входа, то нет смысла их выкидывать, а лучше правильно их оформить

K
На сайте с 09.02.2006
Offline
116
#2

Да не являются они точками входа, тупо масса которая сидит в соплях. И из за этого нормальные страницы не индексятся, как я понимаю.

П
На сайте с 19.04.2005
Offline
104
#3

Если форум лежал в папке, то можно попробовать в вебмастер тулз сделать запрос на удаление папки.

Вечные ссылки в рассрочку, отобраны только качественные доноры Регистрация по приглашению -> http://gogettop.ru/?ref=18973 (http://gogettop.ru/?ref=18973)
K
На сайте с 09.02.2006
Offline
116
#4

не в папке :) в корне лежал

VF
На сайте с 26.01.2002
Offline
113
VF
#5
Kass:
Ждать дальше смысла нет, уже 3 месяца прошло.
...
Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает.

То есть по логам видите, что гуглбот заходит на уже удаленные страницы, получает 404 (а не другой код) и все равно они остаются в его базе уже несколько месяцев?

Можно еще посмотреть в инструментах вебмастера "ошибки сканирования" - видит ли реально кучу не найденных и заблокированных через robots страниц или нет...

[Удален]
#6

Kass, В вашем случае, ИМХО, нужно написать скрипт который бы автоматом удалил страницы через https://www.google.com/webmasters/tools/removals?action=create&hl=ru

K
На сайте с 09.02.2006
Offline
116
#7
VF:
То есть по логам видите, что гуглбот заходит на уже удаленные страницы, получает 404 (а не другой код) и все равно они остаются в его базе уже несколько месяцев?

Можно еще посмотреть в инструментах вебмастера "ошибки сканирования" - видит ли реально кучу не найденных и заблокированных через robots страниц или нет...

Да пытается долбится в 404

66.249.71.199 - - [17/Feb/2010:07:02:50 +0200] "GET /viewtopic.php?t=23&sid=5aab138a40bb7fe1c8ebce29fa40890b HTTP/1.1" 404 94 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

и в ошибках сканирования стоят 80к страниц как запрещенных через robots.txt

Kass, В вашем случае, ИМХО, нужно написать скрипт который бы автоматом удалил страницы

ну вообщем то написать его не вопрос :) вопрос сколько займет отработать хотя бы 10к. Тут в 50 потоков не запустишь.

Вобщем я прихожу к мнению что домены из под форумов есть мусор, который не надо юзать для белых проектов. Или ждать надо пока он переварит это гиганское кол-во мусора и выплюнет его. Но как видно процесс этот не быстрый.

VF
На сайте с 26.01.2002
Offline
113
VF
#8
Kass:
вопрос сколько займет отработать хотя бы 10к. Тут в 50 потоков не запустишь.

Это вообще не вопрос, т.к. работать будет комп, а не вы :). Да и с интенсивностью 1 запрос в секунду это займет меньше 3 часов.

Willie
На сайте с 08.10.2008
Offline
200
#9
madwat:
Kass, В вашем случае, ИМХО, нужно написать скрипт который бы автоматом удалил страницы через https://www.google.com/webmasters/tools/removals?action=create&hl=ru

Будьте добры,

расскажите, как это сделать. Мне надо. А я Вам за это тоже что-нибудь хорошенькое сделаю.

Попробовать мобильные прокси бесплатно: clck.ru/3EKDyC
[Удален]
#10

Willie, я сам эту тему пробиваю, это у Kass написать его не вопрос :). Если что-то будет поделюсь я не жадный ;)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий