Команда Яндекса рассказала о том, как именно проводит учения в собственных дата-центрах, периодически отключая каждый из них, чтобы уметь работать в аварийных ситуациях.
Сейчас у Яндекса есть несколько собственных дата-центров, в которых располагается несколько десятков тысяч серверов и сетевое оборудование. Сеть дата-центров работает абсолютно независимо от офисов, что позволяет обеспечивать пользователей Яндекса качественными сервисами в режиме 24х7 с высокой скоростью доступа. В 2005 году в Яндексе шутили, что департамент эксплуатации компании потребляет серверы на завтрак, обед и ужин, устанавливая в дата-центры по три сервера за день - сегодня эта цифра еще больше, и растет с каждым днем.
фото из дата-центра Яндекса в Сасово
В дата-центрах периодически случались аварии, и причины были самыми разными:
- пух забивался в кондиционеры, и они начинали греть, а не охлаждать дата-центры, сервера приходилось отключать;
- отключение дата-центров по питанию по разным и совершенно невероятным причинам, начиная от того, что арендодатель забыл вовремя оплатить счет за электроэнергию, кончая тем, что кошка забралась в трансформаторную будку и устроила короткое замыкание;
- были потопы в дата-центрах;
- конечно, не обошлось и без нашего любимого персонажа — экскаваторщика, ловко и метко копающего в местах, где лежит наш оптоволоконный кабель.
Очевидно, что в таких условиях специалисты Яндекса быстро поняли, что можно рассчитывать только на свои силы и уметь жить в условиях N-1 дата-центр. Тогда и появилась мысль о проведении учений.
Учения - это моделирование реальной жизненной ситуации, при которой происходит потеря или всего дата-центра или его части.
Подробней о том, как и когда проходят учения читайте в блоге Яндекса на Хабрахабре