В новом выпуске подкаста Search Off the Record сотрудники Google Джон Мюллер, Гэрри Илш и Мартин Сплитт также обсудили такой вопрос, как бюджет сканирования.
Основной вывод состоит в том, что подавляющему большинству сайтов беспокоиться о краулинговом бюджете не нужно. Своими мыслями по этой теме делился в основном Гэри Илш.
- Когда нужно и не нужно думать о бюджете сканирования
Обычно, SEO-специалисты хотят слышать конкретную цифру, когда речь заходит о краулинговом бюджете: начиная с какого количества страниц нужно начинать беспокоиться.
Однако, по словам Илша, это работает по-другому:
«… Ну, это не совсем так. Например, вы можете делать какие-то глупые вещи на сайте, после чего Googlebot начнёт сканировать как сумасшедший. Или вы можете делать другие глупости, и тогда Googlebot вообще перестанет сканировать ваш сайт».
Если говорить о цифрах, то примерно 1 млн URL – это тот уровень, после которого можно начинать беспокоиться о краулинговом бюджете. Если на сайте меньше URL, то переживать о нём не стоит.
- Факторы, влияющие на краулинговый бюджет
Для тех сайтов, у которых больше миллиона URL, это факторы, которые могут приводить к проблемам со сканированием или указывать на них.
1. Страницы долго не сканируются
По словам Илша, это хороший индикатор находимости и сканируемости сайта. В данном случае он советует посмотреть на те страницы, которые никогда не сканировалась. Для этого он рекомендует проверить журналы сервера.
2. Внесение изменений в те части сайта, которые долго не обновлялись
Если отдельные части сайта долго не обновлялись – например, в течение нескольких месяцев, а затем в них были внесены изменения, то в данном случае всё же стоит обратить внимание на бюджет сканирования.
- Решение проблем с бюджетом сканирования
Илш предложил два совета по решению проблем в этой области:
- Удалите ненужные страницы
- Не посылайте Googlebot сигналы, заставляющие его прекратить сканирование
Такие сигналы – это определённые коды ответа сервера, которые «говорят» Googlebot немедленно прекратить сканирование сайта. Например, 429, 50x и другие. Их лучше избегать.
Напомним, что в последнем выпуске Search Off the Record Гэри Илш также поделился своими мыслями о происхождении теории Google Sandbox, которая появилась в SEO-сообществе в 2004 году. Он отметил, что на самом деле эта теория могла быть связана с индексированием, а не ранжированием. В частности, с особенностями работы поискового индекса Google в то время.
Материалы по теме: