Запрет в роботс от сканирования не запрещает гуглботу сканировать сайт - Google

108

seo_optimist

15 сентября 2014, 10:20

#11

flacon2000:
На сайте +/-1000 страниц, в индекс гугла случайно попал весь шлак вордпресса — более 50 тыс страниц в индексе.

Подскажите, как заставить гугл выкинуть лишнее?

Что эффективней — запретить в robots.txt индексацию или отдавать 404 на левых страницах а в robots не запрещать?

За robots.txt забудьте, его нужно использовать до того как мусор попадает в индекс, а не после. Каждая несуществующая страница должна отдавать 404, а если по этим страницам будут серфить люди то meta noindex.

Блокирую индексацию в роботс Как спасти сайт от Хитрый ahrefs.com

F2

111

flacon2000

15 сентября 2014, 11:08

#12

seo_optimist:
Каждая несуществующая страница должна отдавать 404, а если по этим страницам будут серфить люди то meta noindex.

Исходя из того, что страницы есть в индексе гугла, люди могут по ним серфить, и, соответственно, noindex нужен? Или это не принципиальный момент?

⭐ ⭐ ⭐

108

seo_optimist

15 сентября 2014, 11:38

#13

flacon2000:
Исходя из того, что страницы есть в индексе гугла, люди могут по ним серфить, и, соответственно, noindex нужен? Или это не принципиальный момент?

Могут - да, определитесь принципиально ли вам, что бы они по ни серфили, например если это пустые страницы или множественные дубликаты страниц с никчемным контентом, то пусть лучше пользователь зайдет на целевую сраницу

Дубликаты и выдача страница "версия для печати" Почему вообще нет никаких

ХЧ

26

ХорошийЧеловек

15 сентября 2014, 12:03

#14

easywind:
Не заблуждайтесь и не вводите в заблуждение. Для гугла это не запретить индексацию, а только запретить сканирование.

Пардон, это я и имел ввиду. Спасибо за фикс.

---------- Добавлено 15.09.2014 в 22:18 ----------

easywind:
Не заблуждайтесь и не вводите в заблуждение. Для гугла это не запретить индексацию, а только запретить сканирование.

Хотя я вспомрнил, что писал.

Запрет в роботс от сканирования не запрещает гуглботу сканировать. Он все равно шарахается по сайту. Проверно. Он запрещает сканированный документ заносить в индекс (если его еще там нет).

Буквально недавно я запретил в роботс сканировать каталог и часть документов для нового сайта.

Не запретил только индексацию только для уникального контента.

Сайт быстро попал по СЧ, НЧ, ВЧ по ун. контенту в ТОП30. Практически за 2 недели.

Потом я получил -200 по всем позициям.

Посмотрел логи вэб сервера, оказалось, что гуглбот хорошо пошарашался по неуникальному контенту. После того как неуникальный контент был переписан через неделю сайт снова вернулся на позиции, даже с плюсом по всем позициям. Я посмотрел логи - гугл бот не смотря на запрет пошарахался по этим статьям.

ВЫВОД:

запрещая страницу в роботсе для гугла запрещатся индексация отсканированного контета сайта, но никак не сканирование контента.

Что за фильтр? Помогите! Яндекс прессует мой Не индексирует уникальный контент

E

283

easywind

16 сентября 2014, 11:34

#15

ХорошийЧеловек, я не в курсе что у Вас за сайт. Почитайте с 26 сообщения. Все с примерами давал. После той темы - 2 неделии вообще вопросов по роботсу на серче не было :)

ХЧ

26

ХорошийЧеловек

16 сентября 2014, 15:49

#16

easywind, так для любого сайта :) Если в роботс закрыть от сканирования страницы, наглый гуглбот все равно ходит по этим страницам, т.е. скачивает их, но в индекс они не попадают :) Я регулярно логи глазами смотрю через свою программу. которая показывает что делал робот на сайте.

Я поэтому и написал, что запрет страницы в роботс для гугла запрещат только индексацию страницы, но никак не скачивание ее ботом.

Подскажите по индексации гуглом. Как ведет себя Googlebot Дубли страниц из-за параметров

822

alaev

16 сентября 2014, 17:46

#17

ТС, весь шлак, попавший в индекс, можно передать 301-м редиректом на 404-ю страницу, прописав шаблонное условие в .httaccess

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама

E

283

easywind

16 сентября 2014, 18:01

#18

ХорошийЧеловек, клокинг , вззломы и т.д както же нужно проверять? ВОт и ходит наверно. Либо разные зеркала у сайта или еще что-то. Я написал, что не видел Ваш сайт.

ХЧ

26

ХорошийЧеловек

17 сентября 2014, 15:17

#19

easywind:
ХорошийЧеловек, клокинг , вззломы и т.д както же нужно проверять? ВОт и ходит наверно. Либо разные зеркала у сайта или еще что-то. Я написал, что не видел Ваш сайт.

Если взять любой сайт, абсолютно любой и сделать дизаллов в роботс, то гугл бот все равно походит по страницам любого домена, любого сайта (которые в дизаллов), т.е. выкачает их, но в индекс не засунет.

Самое забавное, что если там не уникальный контент, то гугл это учтет, т.е. запред в роботсе не гарантирует то, что гугл не будет сканировать документы, а лишь дает гарантию, что не засунет в индекс.

Эксперименты показывают, что Яндекс делает так же. Из-за этой хрени я недавно набрал очень много седых волос =)

Как ведет себя Googlebot Переход на HTTPS. Надо Panda 4.1.

F2

111

flacon2000

17 сентября 2014, 17:08

#20

alaev:
ТС, весь шлак, попавший в индекс, можно передать 301-м редиректом на 404-ю страницу, прописав шаблонное условие в .httaccess

Спасибо, я так и сделал. Жду вот теперь... говорят что до 3 месяцев можно ждать.

Что делать, чтобы попасть в ответы Google Bard

Курс биткоина превысил $50 тысяч

robots.txt vs 404