Google может индексировать URL, заблокированные в robots.txt, не сканируя их. Об этом заявил сотрудник поиска Джон Мюллер, отвечая на вопрос одного из вебмастеров в Twitter.
В частности, пользователь спрашивал, почему по сайту, который полностью заблокирован в robots.txt, в результатах поиска отображаются заголовки и описания страниц.
Мюллер ответил так: «URL могут индексироваться без сканирования, если они заблокированы в robots.txt».
На вопрос, почему отображаются заголовки и ссылки, если URL не сканируются, Мюллер ответил: «Заголовки обычно берутся из ссылок, однако сниппетов не должно быть». При этом он добавил, что хотел бы взглянуть на сами URL, чтобы понять, в чём дело.
Как объяснил консультант по поисковому маркетингу Барри Адамс (Barry Adams), robots.txt – это инструмент для управления сканированием, но не индексированием. Чтобы предотвратить индексацию, нужно использовать соответствующую директиву в метатеге robots или HTTP-заголовки X-Robots-Tag. Но чтобы Googlebot увидел эти директивы, ему нужно разрешить сканировать эти страницы.
Джон Мюллер отметил твит Адамса «лайком».