Как заставить тупой Google видеть обновленный robots.txt

P
На сайте с 27.10.2014
Offline
221
1357

За всю практику впервые столкнулся с такой тупизной Google.

Ситуация такая: нужно было протестировать проект онлайн. Было создано несколько сгенереных текстов, категорий и т.д. Ну скорость проверить по всем метрикам, мобильную версию и т.д. Все как всегда. Но обычно я запускаю с живыми текстами проект, а тут они были еще не готовы. Да, я знаю что как бы нужно делать все оффлайн сначала, но вот так уж вышло.

Чтобы Google не зашел на сайт он был заблокирован 2-мя способами:

1) robots.txt

2)тегом noindex, nofollow

Но гребаный Google не смотря на все запреты сумел проиндексировать достаточное кол-во страниц со сгенеренным (тестовым) текстом. Мало того, он продолжает выкладывать в выдачу эти страницы и сейчас, хотя уже как неделя прошла.

Конечно, я позже убрал всю чушь с проекта и добавил нормальные текста + изменил robots и убрал noindex, nofollow. Но теперь он в упор не хочет индексировать страницы. Мало того, даже при добавлении sitemap в WMT, он пишет что все страницы в sitemap заблокированы в robots.txt

Естественно, я зашел в Сканирование -> Инструмент проверки файла robots.txt, и конечно я обнаружил там фаил недельной давности

User-agent: *

Disallow: /

После обновления страницы, я увидил что Google все же видит новый фаил. На крайняк нажал кнопку "Отправить".

В сухом остатке:

Страницы замечательно заходят в индекс через "Посмотреть как GoogleBot", но чрез день исчезают из индекса. Если забить в google site:mysite.com, то виден микс из старых (сгенеренных) и новых нормальных страниц, где новые помечены как:

"No information is available for this page.

Learn why"

ну то бишь он не выводит их из-за блокировки в robots.txt. Этот маразм длится уже неделю.

Вопрос: как объяснить тупому Google что у меня новый robots.txt, учитывая то что он его види даже в WMT, но не примнимает во внимание.

P.s.: только давайте по существу. Нужен ответ на конкретный вопрос. Спасибо!

P.p.s: картинки бот индексирует замечательно

UA
На сайте с 24.06.2018
Offline
7
#1

Не знаю поможет ли вам

У меня когда некоторое время сайт стоит с

Disallow: /

Потом когда открываю индексацию, Гугль примерно неделю мурыжит, ведет себя так, словно там по прежнему Disallow: /, хотя на самом деле нет.

Это само скоро устаканится

У него там всякие свои базы данных, занимает время, пока новый роботс растащится по всем закоулкам

I'm not your bitch
P
На сайте с 27.10.2014
Offline
221
#2

up and down, да я понимаю. Просто по опыту бородатых лет, этот процесс может длиться до двух месяцев. Я уверен что есть какая-то фича как еще ему можно скормить новый robots.txt. Ведь картинки он индексирует.

А так да, согласен, по всем дата центрам раскиданы разные копии сайта. Главный вопрос не в том:

1) Какого хрена он начал индексирвать то что было закрыто в noindex, nofollow и Disallow: /

2) Какого хрена он применил старую (по всей видимости где-то закешированную) копию robots.txt к новым траницам, в то время как он уже видит новый кормальный robots.txt

UA
На сайте с 24.06.2018
Offline
7
#3

Обычно только Disallow: / достаточно, чтобы перекрыть абсолютно все.

Вывод: Новый роботс не сразу обрабатывается соответственно всеми гуглевскими активностями.

Некоторые еще используют предыдущую версию.

Еще раз повторю (мнение) - это само устаканится

У меня на сайт мап ругался в s-консоли, мол там все роботсом перекрыто, хотя роботс уже несколько дней стоял обновленный (открытый)

И тд

AS
На сайте с 17.11.2017
Offline
92
#4

Такая же фигня была.

Гугл сначала всё отсканирует, а потом уже смотрит на директивы. На каком-то еженедельном QA видео один из инженеров Гугла отвечал по похожему запросу: мы индексируем всё, запретные директивы на усмотрение ИИ и т.д., страницы могут попасть в выдачу, потом если директива принята, то их из индекса убирают и Google отодвигает сайт в очереди на переиндекс.

UA
На сайте с 24.06.2018
Offline
7
#5

Вот еще небольшая фишка.

У меня везде и всегда все папки JS закрыты.

Г-кэш страниц http-сайтов ведет себя так, как и задано - js закрыт.

Г-кэш страниц https-сайтов ведет себя так, словно js открыт.

Вывод: при HTTPS Гугль просто полностью (иногда) забивает на disallow /

TN
На сайте с 17.07.2009
Offline
65
#6

может и ничего нового не скажу, но в прошлом месяце скармливал гуглу новый роботс и сайтмап через гугл аналитику серчконсоль

так как на сайте изменили наименования путей после прикрутки 1с. пришлось все переделывать

D.iK.iJ
На сайте с 26.05.2013
Offline
225
#7

Добавьте на все "лишние" страницы мета-тег <meta name="robots" content="noindex, nofollow">

Иначе это может продолжаться долго...

Адаптивный дизайн в 2 строчки ( https://dikij.com/wm/adaptaciya-saytov.php ). + Принимаю заказы любой сложности ( https://searchengines.guru/ru/forum/926323 ). 💎 Еще я делаю классные кулоны с опалами ( https://mosaicopal.ru/ ).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий