Google: большинству сайтов не нужно беспокоиться о бюджете сканирования

В новом выпуске подкаста Search Off the Record сотрудники Google Джон Мюллер, Гэрри Илш и Мартин Сплитт также обсудили такой вопрос, как бюджет сканирования.

Основной вывод состоит в том, что подавляющему большинству сайтов беспокоиться о краулинговом бюджете не нужно. Своими мыслями по этой теме делился в основном Гэри Илш.

  • Когда нужно и не нужно думать о бюджете сканирования

Обычно, SEO-специалисты хотят слышать конкретную цифру, когда речь заходит о краулинговом бюджете: начиная с какого количества страниц нужно начинать беспокоиться.

Однако, по словам Илша, это работает по-другому:

«… Ну, это не совсем так. Например, вы можете делать какие-то глупые вещи на сайте, после чего Googlebot начнёт сканировать как сумасшедший. Или вы можете делать другие глупости, и тогда Googlebot вообще перестанет сканировать ваш сайт».

Если говорить о цифрах, то примерно 1 млн URL – это тот уровень, после которого можно начинать беспокоиться о краулинговом бюджете. Если на сайте меньше URL, то переживать о нём не стоит.

  • Факторы, влияющие на краулинговый бюджет

Для тех сайтов, у которых больше миллиона URL, это факторы, которые могут приводить к проблемам со сканированием или указывать на них.

1. Страницы долго не сканируются

По словам Илша, это хороший индикатор находимости и сканируемости сайта. В данном случае он советует посмотреть на те страницы, которые никогда не сканировалась. Для этого он рекомендует проверить журналы сервера.

2. Внесение изменений в те части сайта, которые долго не обновлялись

Если отдельные части сайта долго не обновлялись – например, в течение нескольких месяцев, а затем в них были внесены изменения, то в данном случае всё же стоит обратить внимание на бюджет сканирования.

  • Решение проблем с бюджетом сканирования

Илш предложил два совета по решению проблем в этой области:

    • Удалите ненужные страницы
Каждая страница, которую должен сканировать Googlebot, сокращает краулинговый бюджет для других страниц. Удалив ненужный контент, вы поможет Googlebot сосредоточиться на более качественных страницах, которые более ценны для пользователей.

    • Не посылайте Googlebot сигналы, заставляющие его прекратить сканирование

Такие сигналы – это определённые коды ответа сервера, которые «говорят» Googlebot немедленно прекратить сканирование сайта. Например, 429, 50x и другие. Их лучше избегать.

Напомним, что в последнем выпуске Search Off the Record  Гэри Илш также поделился своими мыслями о происхождении теории Google Sandbox, которая появилась в SEO-сообществе в 2004 году. Он отметил, что на самом деле эта теория могла быть связана с индексированием, а не ранжированием. В частности, с особенностями работы поискового индекса Google в то время.

Материалы по теме:

Источник: Search Engine Journal
preview В работе WordPress 5.5 обнаружен ещё один баг

В работе WordPress 5.5 обнаружен ещё один баг

Он приводит к ошибкам 404 в файлах Sitemap
preview Bing оценивает качество страниц перед индексацией

Bing оценивает качество страниц перед индексацией

Поисковик не хочет видеть в своём индексе некачественные страницы
preview Google тестирует новую систему для отправки сообщений о срочных проблемах на сайте

Google тестирует новую систему для отправки сообщений о срочных проблемах на сайте

На первом этапе это будут проблемы безопасности
preview Гэри Илш: теория Google Sandbox могла быть связана с индексированием

Гэри Илш: теория Google Sandbox могла быть связана с индексированием

А не с ранжированием
preview Более 65% SEO-специалистов в Восточной Европе – мужчины

Более 65% SEO-специалистов в Восточной Европе – мужчины

Исследование North Star Inbound
preview В Search Console появились данные по избранным сниппетам

В Search Console появились данные по избранным сниппетам

Речь идёт об URL с функцией ScrollToText