1. Это ресселеры. Как раз америкосы такое и пишут =)
2. Я постоянно вижу при мониторинге раз в 10 минут) При этом (писал выше), что проверяется доступность ещё и mysql через скрипт. А в нём host-tracker ищет слово ОК. На одном из серверов 99.92 за 220 дней(!).
99.7 - 99.8 вполне нормальный аптайм. Он не допускает по 10 минут простоя в сутки =)
А вот 99.999% даже датацентры не видел, чтобы гарантировали. Какая тут разница, хостинг это или HAC ?
Или может у вас Гео-кластер? Да и он не даст 99.999%, т.к. при падении одного ДЦ, нужно будет время на определение проблемы и переключения.
1. Интересно, откуда вам это известно? =)
2. В Raid'е диски тоже без проблем мониторятся. Неужели ни разу никаких проблем не было, оповещений и тут "бац"?
3. Бэкапы где? :) Раз для восстановления требуется знать имена файлов, то их просто не было.
Конечно мог сглючить контроллер, но как можно не иметь вообще бэкапов?
Всё верно понимаете.
В сутках 1440 минут. Из них 10 минут состовляют (100% * 10) / 1440 = 0,69%.
Но 99,3% это достаточно низкий аптайм. Это 5 часов за месяц или 2,5 суток (!!) за год.
Я понимаю, что обновления нужно ставить, но не каждый же день. А тут у вас ни одного дня не будет 100% аптайма, да и если будет, то для 99.3% получится, что 20-30 минут будет простой в другой день.
Я не считаю нормальным, когда сервера падают каждый день)
Так.
Или попробуйте поискать проги для чтения ufs под Windows.
+1. Они как раз видимо рассчитывали, что благодаря репутации регистратора, к ним пойдут.
В принципе, не прогадали.
Но я тоже склоняюсь к тому, что каждый должен заниматься своим делом. Я сотрудничаю сам с reg.ru по регистрации доменов, но VDS и сервера от них не интересны даже...
И скорее всего нет нормального RAID'а + оповещения от smartctl. Если конечно кто-то просто не забивал на оповещения.
Это в идеале. Но не всегда всё сразу проходит гладко. Вот не так давно обновляли ядро/мир на всех серверах и блин на одном после мержа конфигов вылезла ошибка с софтом. Даунтайм был не дикой, но более 20 минут вместе с перезагрузками. И тут их требовалось 2.
Но такие глобальные изменения нужны, только если что-то критическое находят. А это бывает реже раза в месяц)
P.S.: У кого проверка раз 30 минут, те перезагрузки вряд ли заметят =) Аптайм можно так держать вплоть до 100%.
В смысле? Файлик дёргает host-tracker ищет там слово OK, поэтому проверка доступности внешняя.
Только что скрипт на php подключается к mysql внутри сервера. Но и сайты делают так же, поэтому можно понять с какой-то долей вероятности, что при ОК сайты работают тоже. Вероятность в разы выше, чем дёргаение http://ip-адрес/ через HT.
Кроме этого у нас с отдельных серверов идёт мониторинг кучи другого. Нагрузка процессора, mysql, канала, нагрузка дисков, количество запросов к web-серверу, отклик портов и т.п.
Я выше написал, как проверяем доступность основных сервисов, которые отвечают за работу сайтов.
1. Дёргаем по домену, а не по ip. (проверяем dns)
2. Дёргаем файл php, который подключается к mysql и выполняет запрос, на основе которого выдаёт OK или нет (проверяем nginx, apache + php, mysql)