Попробуйте написать робота, который залогинный в вебмастер тулз будет забивать на кнопку жать - Google

Как выкинуть 404 страницы из индекса

Kass · 2010-02-17T08:09:15.0000000Z

С гуглом как то давно работаю, но в основном проблема была как вогнать в индекс, тут истуация обратная. Есть domen.com, пару лет на нем был вялотекущий форум, форум я перевез на новое место а на домене поставил шоп. Перевезти через панель вебмастера не получилось, потому как переносил на субдомен, а с субдоменами их инструмент не работает нормально. Я рассудил, что поставлю 404 и все само вывалится. И вот тут появилась проблема с индексом. На момент переезда в индексе было около 100к страниц. Я поставил шоп, в шопе есть фильтры товаров. Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex. Казалось бы сщас станет все как в сказке, но нет В данный момент, по site:domen.com находит 389,000 страниц. Ждать дальше смысла нет, уже 3 месяца прошло. дергая inurl видно что форумные паги ни куда особо не пропали и более того в индексе сидят все фильтры (которые вроде как закрыты все чем можно) В активной выдаче всего страниц 300. Все остальное в соплях, и под каким то аццким фильтром, что подтверждают статсы вебмастер тулз, в sitemap.xml из 3700 страниц проиндексено только 526. Гугль бот носится по сайту, практически не вылезая,в том числе и по продуктам, но мусор этот не выпадает. Пробовал спросить в блоге , но ответов пока нет. Может серч чем то поможет ? Как выкинуть это мусор из индекса?

K

116

Kass

17 февраля 2010, 20:31

#11

Да как бы ничего там сложного нет, написать робота который залогиненый в вебмастер тулз будет форму забивать на кнопку жать. Проблема в другом :) составить теперь лист URLов для удаления в 300к. Хотелось же как то оптимизировать процесс.

Новая модель монетизации для Google: Хотели бы вы Google упраздняет настройку для

П

104

Пилот

17 февраля 2010, 20:46

#12

Проблема в другом составить теперь лист URLов для удаления в 300к. Хотелось же как то оптимизировать процесс.

Kass:

и в ошибках сканирования стоят 80к страниц как запрещенных через robots.txt

конечно не 300к, но 80к уж точно можно собрать

Вечные ссылки в рассрочку, отобраны только качественные доноры Регистрация по приглашению -> http://gogettop.ru/?ref=18973 (http://gogettop.ru/?ref=18973)

I

29

Ippi

17 февраля 2010, 21:50

#13

Kass:
Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.

... в индексе сидят все фильтры (которые вроде как закрыты все чем можно)

Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?

200

Willie

17 февраля 2010, 21:57

#14

madwat:
Willie, я сам эту тему пробиваю, это у Kass написать его не вопрос :). Если что-то будет поделюсь я не жадный ;)

Давайте вместе попробуем пробить: мне порядка 10 тысяч страниц надо из Гугла поудалять, а сам он будет прочухиваться месяца три.

Кстати, если это именно URL, а не каталоги, то в robots.txt можно ничего не прописывать. Достаточно, чтобы по этим адресам выдавалась 404-я ошибка. Проверял буквально на днях, все нормально удаляется.

Попробовать мобильные прокси бесплатно: clck.ru/3EKDyC

K

116

Kass

17 февраля 2010, 22:01

#15

Ippi:
Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?

ага, именно так.

Давайте вместе попробуем пробить: мне порядка 10 тысяч страниц надо из Гугла поудалять, а сам он будет прочухиваться месяца три.

скинь в личку контакт придумаем что нить.

200

Willie

17 февраля 2010, 22:05

#16

Kass:
скинь в личку контакт придумаем что нить.

Так в личку и напишите, надежнее всего.

Я на PHP сам немного программирую, просто боюсь соваться в Гугол с автоматическими запросами: по его правилам это не разрешается. Но если Вы знаете, как грамотно это сделать, или хотя бы как заполнить эту форму (URLы на удаление в виде текстового файла, или, если угодно, массива для PHP известного размера), то здорово поможете.

I

29

Ippi

17 февраля 2010, 22:13

#17

Kass:

Ippi:
Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?

ага, именно так

Если так, то закрытие в robots.txt не даёт гуглботу прочитать ваши noindex. Стоит убрать блокировку в robots.txt, тем более что она всё равно не помогает.

Ippi добавил 18.02.2010 в 01:31

Willie:
то в robots.txt можно ничего не прописывать. Достаточно, чтобы по этим адресам выдавалась 404-я ошибка.

Да, всё верно, и 404 он тоже из-за robots.txt не увидит. И 301, и всё остальное, что требует обращения к странице.

Ippi добавил 18.02.2010 в 02:06

Кстати, насчёт HTTP-статусов. Цитирую отсюда:

Last year we started started treating 410 Gone responses as being a stronger signal for indicating when a page no longer exists.

Так что хотя бы ради науки пропишите в htaccess части ваших страниц Redirect gone или Rewrite по маске (убедитесь чем-нибудь, что стало возвращаться 410). Блокировку в robots.txt, само собой, надо будет убрать.

V

53

vitalone

18 февраля 2010, 05:48

#18

Kass:
Как выкинуть это мусор из индекса?

Здравствуйте, у меня чем-то похожий вопрос (извините если не в тему)

Есть новый сайт интернет магазина. Некоторые разделы каталога / товары только устаканиваются, и соответственно случается что у них могут меняться пути. Как следствие - в разделе "Диагностика"->"Ошибки сканирования" https://www.google.com/webmasters/tools есть список старых страниц в разделе "Не найдено"

Вопрос:

1. Насколько это плохо?

2. Правильно ли я понимаю что бороться с этим можно https://www.google.com/webmasters/tools/removals?action=create&hl=ru как писали выше?

Заранее спасибо

Интернет магазин avtonom.com.ua : товары для автономного энергоснабжения и экономного отопления (http://avtonom.com.ua).

K

116

Kass

18 февраля 2010, 08:42

#19

Ippi:

Так что хотя бы ради науки пропишите в htaccess части ваших страниц Redirect gone или Rewrite по маске (убедитесь чем-нибудь, что стало возвращаться 410). Блокировку в robots.txt, само собой, надо будет убрать.

Вот спасибо, грамотный совет

40

asfadel

18 февраля 2010, 11:37

#20

Willie, с огромной симпатией отношусь к вашей деятельности на форуме, до сих пор не могу показать проект оптимизированный по вашей методике, надеюсь на следующей недели.

От того хочу помочь в этом не очень сложном деле. И наверно лучше прямо здесь, чем городить лички. Начнем с самого простого:

генератор curl'ов http://habrahabr.ru/blogs/webdev/84683/. Хотя более удобным мне кажется аналогичный вариант сделанный на js.

Дайте немного более точное описание текущего алгоритма "ручками".

P.S.: данное сообщение буду редактировать, отображая ход работы.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Как выкинуть 404 страницы из индекса