Во втором эпизоде нового подкаста «Search Off the Record» сотрудник Google Гэри Илш рассказал, с чем была связана проблема с индексацией нового контента. Последний такой сбой был зафиксирован в начале июня.
По словам Илша, на самом деле это была проблема сканирования, хотя на внешнем уровне это выглядело как проблема с индексированием.
В процессе отладки выяснилось, что Googlebot переполнял систему индексирования настолько сильно, что она «утонула» в новых документах для обработки. Поскольку индексирование было перегружено, система Caffeine не могла экспортировать новые документы дальше – в базу для показа в результатах поиска.
Он также уточнил, что под «документами» подразумевается любой контент, который сканирует Googlebot и обрабатывает система индексирования/Caffeine – HTML-страницы, публикации в блогах и т.д.
Прослушать второй эпизод подкаста можно здесь, транскрипция доступна по ссылке.
Напомним, что Google официально предупредил о сбое в индексации нового контента 2 июня. На следующий день, 3 июня, он был устранён.
При этом вебмастера продолжали жаловаться на проблемы с индексацией, но в Google заверили, что с их стороны всё в порядке, а каких-то крупных изменений в работу поиска не вносилось.