- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
За всю практику впервые столкнулся с такой тупизной Google.
Ситуация такая: нужно было протестировать проект онлайн. Было создано несколько сгенереных текстов, категорий и т.д. Ну скорость проверить по всем метрикам, мобильную версию и т.д. Все как всегда. Но обычно я запускаю с живыми текстами проект, а тут они были еще не готовы. Да, я знаю что как бы нужно делать все оффлайн сначала, но вот так уж вышло.
Чтобы Google не зашел на сайт он был заблокирован 2-мя способами:
1) robots.txt
2)тегом noindex, nofollow
Но гребаный Google не смотря на все запреты сумел проиндексировать достаточное кол-во страниц со сгенеренным (тестовым) текстом. Мало того, он продолжает выкладывать в выдачу эти страницы и сейчас, хотя уже как неделя прошла.
Конечно, я позже убрал всю чушь с проекта и добавил нормальные текста + изменил robots и убрал noindex, nofollow. Но теперь он в упор не хочет индексировать страницы. Мало того, даже при добавлении sitemap в WMT, он пишет что все страницы в sitemap заблокированы в robots.txt
Естественно, я зашел в Сканирование -> Инструмент проверки файла robots.txt, и конечно я обнаружил там фаил недельной давности
User-agent: *
Disallow: /
После обновления страницы, я увидил что Google все же видит новый фаил. На крайняк нажал кнопку "Отправить".
В сухом остатке:
Страницы замечательно заходят в индекс через "Посмотреть как GoogleBot", но чрез день исчезают из индекса. Если забить в google site:mysite.com, то виден микс из старых (сгенеренных) и новых нормальных страниц, где новые помечены как:
"No information is available for this page.
Learn why"
ну то бишь он не выводит их из-за блокировки в robots.txt. Этот маразм длится уже неделю.
Вопрос: как объяснить тупому Google что у меня новый robots.txt, учитывая то что он его види даже в WMT, но не примнимает во внимание.
P.s.: только давайте по существу. Нужен ответ на конкретный вопрос. Спасибо!
P.p.s: картинки бот индексирует замечательно
Не знаю поможет ли вам
У меня когда некоторое время сайт стоит с
Disallow: /
Потом когда открываю индексацию, Гугль примерно неделю мурыжит, ведет себя так, словно там по прежнему Disallow: /, хотя на самом деле нет.
Это само скоро устаканится
У него там всякие свои базы данных, занимает время, пока новый роботс растащится по всем закоулкам
up and down, да я понимаю. Просто по опыту бородатых лет, этот процесс может длиться до двух месяцев. Я уверен что есть какая-то фича как еще ему можно скормить новый robots.txt. Ведь картинки он индексирует.
А так да, согласен, по всем дата центрам раскиданы разные копии сайта. Главный вопрос не в том:
1) Какого хрена он начал индексирвать то что было закрыто в noindex, nofollow и Disallow: /
2) Какого хрена он применил старую (по всей видимости где-то закешированную) копию robots.txt к новым траницам, в то время как он уже видит новый кормальный robots.txt
Обычно только Disallow: / достаточно, чтобы перекрыть абсолютно все.
Вывод: Новый роботс не сразу обрабатывается соответственно всеми гуглевскими активностями.
Некоторые еще используют предыдущую версию.
Еще раз повторю (мнение) - это само устаканится
У меня на сайт мап ругался в s-консоли, мол там все роботсом перекрыто, хотя роботс уже несколько дней стоял обновленный (открытый)
И тд
Такая же фигня была.
Гугл сначала всё отсканирует, а потом уже смотрит на директивы. На каком-то еженедельном QA видео один из инженеров Гугла отвечал по похожему запросу: мы индексируем всё, запретные директивы на усмотрение ИИ и т.д., страницы могут попасть в выдачу, потом если директива принята, то их из индекса убирают и Google отодвигает сайт в очереди на переиндекс.
Вот еще небольшая фишка.
У меня везде и всегда все папки JS закрыты.
Г-кэш страниц http-сайтов ведет себя так, как и задано - js закрыт.
Г-кэш страниц https-сайтов ведет себя так, словно js открыт.
Вывод: при HTTPS Гугль просто полностью (иногда) забивает на disallow /
может и ничего нового не скажу, но в прошлом месяце скармливал гуглу новый роботс и сайтмап через гугл аналитику серчконсоль
так как на сайте изменили наименования путей после прикрутки 1с. пришлось все переделывать
Добавьте на все "лишние" страницы мета-тег <meta name="robots" content="noindex, nofollow">
Иначе это может продолжаться долго...