Как заставить тупой Google видеть обновленный robots.txt

234

Pliny

28 июня 2018, 07:59

1392

За всю практику впервые столкнулся с такой тупизной Google.

Ситуация такая: нужно было протестировать проект онлайн. Было создано несколько сгенереных текстов, категорий и т.д. Ну скорость проверить по всем метрикам, мобильную версию и т.д. Все как всегда. Но обычно я запускаю с живыми текстами проект, а тут они были еще не готовы. Да, я знаю что как бы нужно делать все оффлайн сначала, но вот так уж вышло.

Чтобы Google не зашел на сайт он был заблокирован 2-мя способами:

1) robots.txt

2)тегом noindex, nofollow

Но гребаный Google не смотря на все запреты сумел проиндексировать достаточное кол-во страниц со сгенеренным (тестовым) текстом. Мало того, он продолжает выкладывать в выдачу эти страницы и сейчас, хотя уже как неделя прошла.

Конечно, я позже убрал всю чушь с проекта и добавил нормальные текста + изменил robots и убрал noindex, nofollow. Но теперь он в упор не хочет индексировать страницы. Мало того, даже при добавлении sitemap в WMT, он пишет что все страницы в sitemap заблокированы в robots.txt

Естественно, я зашел в Сканирование -> Инструмент проверки файла robots.txt, и конечно я обнаружил там фаил недельной давности

User-agent: *

Disallow: /

После обновления страницы, я увидил что Google все же видит новый фаил. На крайняк нажал кнопку "Отправить".

В сухом остатке:

Страницы замечательно заходят в индекс через "Посмотреть как GoogleBot", но чрез день исчезают из индекса. Если забить в google site:mysite.com, то виден микс из старых (сгенеренных) и новых нормальных страниц, где новые помечены как:

"No information is available for this page.

Learn why"

ну то бишь он не выводит их из-за блокировки в robots.txt. Этот маразм длится уже неделю.

Вопрос: как объяснить тупому Google что у меня новый robots.txt, учитывая то что он его види даже в WMT, но не примнимает во внимание.

P.s.: только давайте по существу. Нужен ответ на конкретный вопрос. Спасибо!

P.p.s: картинки бот индексирует замечательно

https://t.me/techordie

UA

7

up and down

28 июня 2018, 08:08

#1

Не знаю поможет ли вам

У меня когда некоторое время сайт стоит с

Disallow: /

Потом когда открываю индексацию, Гугль примерно неделю мурыжит, ведет себя так, словно там по прежнему Disallow: /, хотя на самом деле нет.

Это само скоро устаканится

У него там всякие свои базы данных, занимает время, пока новый роботс растащится по всем закоулкам

I'm not your bitch

Отсутствуют мета-теги <description> Некоторые важные страницы блокируются Будут ли какие-то последствия?

P

234

Pliny

28 июня 2018, 08:23

#2

up and down, да я понимаю. Просто по опыту бородатых лет, этот процесс может длиться до двух месяцев. Я уверен что есть какая-то фича как еще ему можно скормить новый robots.txt. Ведь картинки он индексирует.

А так да, согласен, по всем дата центрам раскиданы разные копии сайта. Главный вопрос не в том:

1) Какого хрена он начал индексирвать то что было закрыто в noindex, nofollow и Disallow: /

2) Какого хрена он применил старую (по всей видимости где-то закешированную) копию robots.txt к новым траницам, в то время как он уже видит новый кормальный robots.txt

Сильное обновление Гугл. Часть Поисковики редко индексируют Закрытие nofollow, noindex тех.страниц

UA

7

up and down

28 июня 2018, 09:10

#3

Обычно только Disallow: / достаточно, чтобы перекрыть абсолютно все.

Вывод: Новый роботс не сразу обрабатывается соответственно всеми гуглевскими активностями.

Некоторые еще используют предыдущую версию.

Еще раз повторю (мнение) - это само устаканится

У меня на сайт мап ругался в s-консоли, мол там все роботсом перекрыто, хотя роботс уже несколько дней стоял обновленный (открытый)

И тд

Как ускорить индексацию сайта Все вопросы по robots.txt Как поступить с robots.txt

AS

92

AntonyStark

29 июня 2018, 03:39

#4

Такая же фигня была.

Гугл сначала всё отсканирует, а потом уже смотрит на директивы. На каком-то еженедельном QA видео один из инженеров Гугла отвечал по похожему запросу: мы индексируем всё, запретные директивы на усмотрение ИИ и т.д., страницы могут попасть в выдачу, потом если директива принята, то их из индекса убирают и Google отодвигает сайт в очереди на переиндекс.

Сайт "прыгает" в индексе Ваш сайт не проиндексирован Тоска по СССР (только

UA

7

up and down

29 июня 2018, 06:09

#5

Вот еще небольшая фишка.

У меня везде и всегда все папки JS закрыты.

Г-кэш страниц http-сайтов ведет себя так, как и задано - js закрыт.

Г-кэш страниц https-сайтов ведет себя так, словно js открыт.

Вывод: при HTTPS Гугль просто полностью (иногда) забивает на disallow /

Все таки придется переходить HTTPS в 2017 Переход на HTTPS, свежие

TN

65

Tomas.n.mor

29 июня 2018, 08:52

#6

может и ничего нового не скажу, но в прошлом месяце скармливал гуглу новый роботс и сайтмап через гугл аналитику серчконсоль

так как на сайте изменили наименования путей после прикрутки 1с. пришлось все переделывать

Письмо с гугл бизнес Как правильно перенести неудачный Вопросы по Google

229

D.iK.iJ

29 июня 2018, 12:27

#7

Добавьте на все "лишние" страницы мета-тег <meta name="robots" content="noindex, nofollow">

Иначе это может продолжаться долго...

1

Адаптивный дизайн в 2 строчки ( https://dikij.com/wm/adaptaciya-saytov.php ). + Принимаю заказы любой сложности ( https://searchengines.guru/ru/forum/926323 ). 💎 Еще я делаю классные кулоны с опалами ( https://mosaicopal.ru/ ).

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ