Как выкинуть 404 страницы из индекса

123
K
На сайте с 09.02.2006
Offline
116
#11

Да как бы ничего там сложного нет, написать робота который залогиненый в вебмастер тулз будет форму забивать на кнопку жать. Проблема в другом :) составить теперь лист URLов для удаления в 300к. Хотелось же как то оптимизировать процесс.

П
На сайте с 19.04.2005
Offline
104
#12
Проблема в другом составить теперь лист URLов для удаления в 300к. Хотелось же как то оптимизировать процесс.
Kass:

и в ошибках сканирования стоят 80к страниц как запрещенных через robots.txt

конечно не 300к, но 80к уж точно можно собрать

Вечные ссылки в рассрочку, отобраны только качественные доноры Регистрация по приглашению -> http://gogettop.ru/?ref=18973 (http://gogettop.ru/?ref=18973)
I
На сайте с 14.09.2009
Offline
29
#13
Kass:
Ссылки на фильтры запрещены в robots.txt, сами результаты по фильтрации закрыты мета тегом noindex.

... в индексе сидят все фильтры (которые вроде как закрыты все чем можно)

Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?

Willie
На сайте с 08.10.2008
Offline
200
#14
madwat:
Willie, я сам эту тему пробиваю, это у Kass написать его не вопрос :). Если что-то будет поделюсь я не жадный ;)

Давайте вместе попробуем пробить: мне порядка 10 тысяч страниц надо из Гугла поудалять, а сам он будет прочухиваться месяца три.

Кстати, если это именно URL, а не каталоги, то в robots.txt можно ничего не прописывать. Достаточно, чтобы по этим адресам выдавалась 404-я ошибка. Проверял буквально на днях, все нормально удаляется.

Попробовать мобильные прокси бесплатно: clck.ru/3EKDyC
K
На сайте с 09.02.2006
Offline
116
#15
Ippi:
Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?

ага, именно так.

Давайте вместе попробуем пробить: мне порядка 10 тысяч страниц надо из Гугла поудалять, а сам он будет прочухиваться месяца три.

скинь в личку контакт придумаем что нить.

Willie
На сайте с 08.10.2008
Offline
200
#16
Kass:
скинь в личку контакт придумаем что нить.

Так в личку и напишите, надежнее всего.

Я на PHP сам немного программирую, просто боюсь соваться в Гугол с автоматическими запросами: по его правилам это не разрешается. Но если Вы знаете, как грамотно это сделать, или хотя бы как заполнить эту форму (URLы на удаление в виде текстового файла, или, если угодно, массива для PHP известного размера), то здорово поможете.

I
На сайте с 14.09.2009
Offline
29
#17
Kass:
Ippi:
Не совсем понятно написано, некие страницы одновременно закрыты и в robots.txt, и содержат noindex?
ага, именно так

Если так, то закрытие в robots.txt не даёт гуглботу прочитать ваши noindex. Стоит убрать блокировку в robots.txt, тем более что она всё равно не помогает.

Ippi добавил 18.02.2010 в 01:31

Willie:
то в robots.txt можно ничего не прописывать. Достаточно, чтобы по этим адресам выдавалась 404-я ошибка.

Да, всё верно, и 404 он тоже из-за robots.txt не увидит. И 301, и всё остальное, что требует обращения к странице.

Ippi добавил 18.02.2010 в 02:06

Кстати, насчёт HTTP-статусов. Цитирую отсюда:

Last year we started started treating 410 Gone responses as being a stronger signal for indicating when a page no longer exists.

Так что хотя бы ради науки пропишите в htaccess части ваших страниц Redirect gone или Rewrite по маске (убедитесь чем-нибудь, что стало возвращаться 410). Блокировку в robots.txt, само собой, надо будет убрать.

V
На сайте с 19.01.2010
Offline
53
#18
Kass:
Как выкинуть это мусор из индекса?

Здравствуйте, у меня чем-то похожий вопрос (извините если не в тему)

Есть новый сайт интернет магазина. Некоторые разделы каталога / товары только устаканиваются, и соответственно случается что у них могут меняться пути. Как следствие - в разделе "Диагностика"->"Ошибки сканирования" https://www.google.com/webmasters/tools есть список старых страниц в разделе "Не найдено"

Вопрос:

1. Насколько это плохо?

2. Правильно ли я понимаю что бороться с этим можно https://www.google.com/webmasters/tools/removals?action=create&hl=ru как писали выше?

Заранее спасибо

Интернет магазин avtonom.com.ua : товары для автономного энергоснабжения и экономного отопления (http://avtonom.com.ua).
K
На сайте с 09.02.2006
Offline
116
#19
Ippi:

Так что хотя бы ради науки пропишите в htaccess части ваших страниц Redirect gone или Rewrite по маске (убедитесь чем-нибудь, что стало возвращаться 410). Блокировку в robots.txt, само собой, надо будет убрать.

Вот спасибо, грамотный совет

asfadel
На сайте с 29.12.2009
Offline
40
#20

Willie, с огромной симпатией отношусь к вашей деятельности на форуме, до сих пор не могу показать проект оптимизированный по вашей методике, надеюсь на следующей недели.

От того хочу помочь в этом не очень сложном деле. И наверно лучше прямо здесь, чем городить лички. Начнем с самого простого:

генератор curl'ов http://habrahabr.ru/blogs/webdev/84683/. Хотя более удобным мне кажется аналогичный вариант сделанный на js.

Дайте немного более точное описание текущего алгоритма "ручками".

P.S.: данное сообщение буду редактировать, отображая ход работы.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий