robots.txt vs 404

12
seo_optimist
На сайте с 09.09.2009
Offline
108
#11
flacon2000:
На сайте +/-1000 страниц, в индекс гугла случайно попал весь шлак вордпресса — более 50 тыс страниц в индексе.

Подскажите, как заставить гугл выкинуть лишнее?

Что эффективней — запретить в robots.txt индексацию или отдавать 404 на левых страницах а в robots не запрещать?

За robots.txt забудьте, его нужно использовать до того как мусор попадает в индекс, а не после. Каждая несуществующая страница должна отдавать 404, а если по этим страницам будут серфить люди то meta noindex.

F2
На сайте с 08.08.2013
Offline
111
#12
seo_optimist:
Каждая несуществующая страница должна отдавать 404, а если по этим страницам будут серфить люди то meta noindex.

Исходя из того, что страницы есть в индексе гугла, люди могут по ним серфить, и, соответственно, noindex нужен? Или это не принципиальный момент?

⭐ ⭐ ⭐
seo_optimist
На сайте с 09.09.2009
Offline
108
#13
flacon2000:
Исходя из того, что страницы есть в индексе гугла, люди могут по ним серфить, и, соответственно, noindex нужен? Или это не принципиальный момент?

Могут - да, определитесь принципиально ли вам, что бы они по ни серфили, например если это пустые страницы или множественные дубликаты страниц с никчемным контентом, то пусть лучше пользователь зайдет на целевую сраницу

ХЧ
На сайте с 27.06.2014
Offline
26
#14
easywind:
Не заблуждайтесь и не вводите в заблуждение. Для гугла это не запретить индексацию, а только запретить сканирование.

Пардон, это я и имел ввиду. Спасибо за фикс.

---------- Добавлено 15.09.2014 в 22:18 ----------

easywind:
Не заблуждайтесь и не вводите в заблуждение. Для гугла это не запретить индексацию, а только запретить сканирование.

Хотя я вспомрнил, что писал.

Запрет в роботс от сканирования не запрещает гуглботу сканировать. Он все равно шарахается по сайту. Проверно. Он запрещает сканированный документ заносить в индекс (если его еще там нет).

Буквально недавно я запретил в роботс сканировать каталог и часть документов для нового сайта.

Не запретил только индексацию только для уникального контента.

Сайт быстро попал по СЧ, НЧ, ВЧ по ун. контенту в ТОП30. Практически за 2 недели.

Потом я получил -200 по всем позициям.

Посмотрел логи вэб сервера, оказалось, что гуглбот хорошо пошарашался по неуникальному контенту. После того как неуникальный контент был переписан через неделю сайт снова вернулся на позиции, даже с плюсом по всем позициям. Я посмотрел логи - гугл бот не смотря на запрет пошарахался по этим статьям.

ВЫВОД:

запрещая страницу в роботсе для гугла запрещатся индексация отсканированного контета сайта, но никак не сканирование контента.

E
На сайте с 21.09.2009
Offline
283
#15

ХорошийЧеловек, я не в курсе что у Вас за сайт. Почитайте с 26 сообщения. Все с примерами давал. После той темы - 2 неделии вообще вопросов по роботсу на серче не было :)

ХЧ
На сайте с 27.06.2014
Offline
26
#16

easywind, так для любого сайта :) Если в роботс закрыть от сканирования страницы, наглый гуглбот все равно ходит по этим страницам, т.е. скачивает их, но в индекс они не попадают :) Я регулярно логи глазами смотрю через свою программу. которая показывает что делал робот на сайте.

Я поэтому и написал, что запрет страницы в роботс для гугла запрещат только индексацию страницы, но никак не скачивание ее ботом.

alaev
На сайте с 18.11.2010
Offline
693
#17

ТС, весь шлак, попавший в индекс, можно передать 301-м редиректом на 404-ю страницу, прописав шаблонное условие в .httaccess

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
E
На сайте с 21.09.2009
Offline
283
#18

ХорошийЧеловек, клокинг , вззломы и т.д както же нужно проверять? ВОт и ходит наверно. Либо разные зеркала у сайта или еще что-то. Я написал, что не видел Ваш сайт.

ХЧ
На сайте с 27.06.2014
Offline
26
#19
easywind:
ХорошийЧеловек, клокинг , вззломы и т.д както же нужно проверять? ВОт и ходит наверно. Либо разные зеркала у сайта или еще что-то. Я написал, что не видел Ваш сайт.

Если взять любой сайт, абсолютно любой и сделать дизаллов в роботс, то гугл бот все равно походит по страницам любого домена, любого сайта (которые в дизаллов), т.е. выкачает их, но в индекс не засунет.

Самое забавное, что если там не уникальный контент, то гугл это учтет, т.е. запред в роботсе не гарантирует то, что гугл не будет сканировать документы, а лишь дает гарантию, что не засунет в индекс.

Эксперименты показывают, что Яндекс делает так же. Из-за этой хрени я недавно набрал очень много седых волос =)

F2
На сайте с 08.08.2013
Offline
111
#20
alaev:
ТС, весь шлак, попавший в индекс, можно передать 301-м редиректом на 404-ю страницу, прописав шаблонное условие в .httaccess

Спасибо, я так и сделал. Жду вот теперь... говорят что до 3 месяцев можно ждать.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий