Во время последней видеовстречи для вебмастеров сотрудник Google Джон Мюллер ответил на вопрос о том, как поисковик относится к «сложным» и «огромным» файлам robots.txt.
Речь шла о файле с 1500 строк и множеством директив disallow, количество которых с годами увеличивалось.
По словам Мюллера, большой файл robots.txt напрямую не оказывает негативного влияния на поисковую оптимизацию сайта. Однако его сложно поддерживать, что может приводить к непредвиденным проблемам.
На дополнительный вопрос о том, возможны ли проблемы, если не включать Sitemap в robots.txt, Мюллер ответил так:
«Нет, для нас эти разные способы отправки Sitemap эквивалентны».
Далее Мюллер ответил на еще несколько вопросов на эту тему.
«Если радикально сократить файл robots.txt, как это отразиться на SEO? Например, удалить все директивы disallow?». В данном случае директивой disallow закрыты элементы футера и хедера страниц, которые не представляют интереса для пользователей.
По словам Мюллера, сложно сказать наверняка, что произойдет, когда эти фрагменты начнут индексироваться. В данном случае наилучшим решением может быть использование подхода «проб и ошибок». Например, можно открыть для сканирования один из этих фрагментов и посмотреть, что будет происходить в поиске, чтобы понять, является ли это проблемой.
Мюллер отметил, что в robots.txt очень просто что-то заблокировать, но для поддержки объемных файлов затем нужно много времени, поэтому важно понять, действительно ли эти блокировки нужны.
Что касается размера, то конкретных рекомендаций у Google нет. У одних сайтов эти файлы большие, у других – маленькие. Главное, чтобы они работали.
Мюллер также напомнил, что у Google есть парсер robots.txt с открытым исходным кодом. Специалисты могут попросить своих разработчиков запустить этот парсер для сайта и проверить, какие URL по факту блокируются, и что это меняет. Таким образом, можно протестировать эти URL прежде, чем снимать запрет на индексирование.
Этот парсер доступен на Github.
Прослушать этот фрагмент обсуждения можно на видео (начиная с отметки 0:39 мин):