Google: большинству сайтов не нужно беспокоиться о бюджете сканирования

26 августа 2020

Анна Бондарь

790

В новом выпуске подкаста Search Off the Record сотрудники Google Джон Мюллер, Гэрри Илш и Мартин Сплитт также обсудили такой вопрос, как бюджет сканирования.

Основной вывод состоит в том, что подавляющему большинству сайтов беспокоиться о краулинговом бюджете не нужно. Своими мыслями по этой теме делился в основном Гэри Илш.

Когда нужно и не нужно думать о бюджете сканирования

Обычно, SEO-специалисты хотят слышать конкретную цифру, когда речь заходит о краулинговом бюджете: начиная с какого количества страниц нужно начинать беспокоиться.

Однако, по словам Илша, это работает по-другому:

«… Ну, это не совсем так. Например, вы можете делать какие-то глупые вещи на сайте, после чего Googlebot начнёт сканировать как сумасшедший. Или вы можете делать другие глупости, и тогда Googlebot вообще перестанет сканировать ваш сайт».

Если говорить о цифрах, то примерно 1 млн URL – это тот уровень, после которого можно начинать беспокоиться о краулинговом бюджете. Если на сайте меньше URL, то переживать о нём не стоит.

Факторы, влияющие на краулинговый бюджет

Для тех сайтов, у которых больше миллиона URL, это факторы, которые могут приводить к проблемам со сканированием или указывать на них.

1. Страницы долго не сканируются

По словам Илша, это хороший индикатор находимости и сканируемости сайта. В данном случае он советует посмотреть на те страницы, которые никогда не сканировалась. Для этого он рекомендует проверить журналы сервера.

2. Внесение изменений в те части сайта, которые долго не обновлялись

Если отдельные части сайта долго не обновлялись – например, в течение нескольких месяцев, а затем в них были внесены изменения, то в данном случае всё же стоит обратить внимание на бюджет сканирования.

Решение проблем с бюджетом сканирования

Илш предложил два совета по решению проблем в этой области:

Удалите ненужные страницы

Каждая страница, которую должен сканировать Googlebot, сокращает краулинговый бюджет для других страниц. Удалив ненужный контент, вы поможет Googlebot сосредоточиться на более качественных страницах, которые более ценны для пользователей.

Не посылайте Googlebot сигналы, заставляющие его прекратить сканирование

Такие сигналы – это определённые коды ответа сервера, которые «говорят» Googlebot немедленно прекратить сканирование сайта. Например, 429, 50x и другие. Их лучше избегать.

Напомним, что в последнем выпуске Search Off the Record Гэри Илш также поделился своими мыслями о происхождении теории Google Sandbox, которая появилась в SEO-сообществе в 2004 году. Он отметил, что на самом деле эта теория могла быть связана с индексированием, а не ранжированием. В частности, с особенностями работы поискового индекса Google в то время.

Материалы по теме:

Источник: Search Engine Journal

В работе WordPress 5.5 обнаружен ещё один баг

Google: большинству сайтов не нужно беспокоиться о бюджете сканирования

В работе WordPress 5.5 обнаружен ещё один баг

Bing оценивает качество страниц перед индексацией

Google тестирует новую систему для отправки сообщений о срочных проблемах на сайте

Гэри Илш: теория Google Sandbox могла быть связана с индексированием

Более 65% SEO-специалистов в Восточной Европе – мужчины

В Search Console появились данные по избранным сниппетам