Google сообщил о завершении работы над новой системой индексирования веб-сайтов – Caffeine. Caffeine на 50% «свежее» предыдущего индекса и представляет собой самую большую коллекцию веб-страниц за всю историю Google.
«Что бы вы ни искали - новости, сообщения в блогах или на форумах, - нужные вам страницы теперь еще быстрее попадут в наш индекс, и вы сможете их быстрее найти, - говорит Кэрри Грим, разработчик Google. - Чтобы не отставать от стремительного развития сети и удовлетворять растущим ожиданиям пользователей, мы и создали систему Caffeine».
В старом индексе Google было несколько слоев, некоторые из которых обновлялись регулярнее, чем другие. Большая часть индекса обновлялась каждые две недели. Чтобы обновить слой индекса, необходимо было анализировать всю сеть, что создавало задержку между моментом нахождения страницы и тем, когда она становилась доступной пользователю. Caffeine же, позволяет анализировать информацию в сети «по частям» и непрерывно обновлять поисковый индекс. Это означает, что результаты поиска будут отображать максимально свежую информацию, вне зависимости от времени и места публикации.
В базе данных Caffeine содержится порядка 100 млн. гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день. Эта система является отличной основой для построения других, более быстрых и объемных индексов, так как она способна лучше адаптироваться к развитию сети, - сообщает официальный блог Google в России.