Замена вышедшего из строя диска в RAID LSI.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#11
Rimlyanin:
А ещё на моей практике было что один винт сдох, контроллер подхватывает резервный винт, начинает ребилдить... и от возросшей нагрузке вылетает ещё один винт.
Бакапы рулят....

От нагрузки помер винт, это печально ! :) так так бы и новый сдох, какая разница когда его ребилдить начало ?? сразу или когда вы винт воткнули новый, скорее всего контроллер слабенький, или таки время винту подошло. Ну или как вы определили что винт умер в следствии возникшей нагрузки при ребилде масива?

---------- Добавлено 05.07.2012 в 17:39 ----------

yeugeny1:
Ситуация весьма характерна для 5 рэйда, но с одной ремаркой - второй винт вылетает во время ребилда, как и писал Rimlyanin. А вот с 10 такого почему-то не случалось, может просто везло. Неделю назад восстанавливали 10 рэйд, из 4 дисков "в живых" оставалось только 2 (на наше счастье - пара в страйпе). Всё закончилось вполне благополучно :))))

Не знаю, с raid-5 работать начал году в 2005м... по сей день использую на разных контролерах, такой аномалии не попадалось.

---------- Добавлено 05.07.2012 в 17:42 ----------

yeugeny1:

Без экспандера этот контроллер всего 4 винта держит, винт HotSpare уже некуда повесить ;)

Все конечно же зависит от бюджетов, было бы куча бабла - было бы другое решение ... это я понимаю, но строить то, что может лопнуть, и не предусматривать там резерва - это само по себе печально... Или что RAID-10 это не убиваемая субстанция? Нет.

Вот честно, не удивлюсь если Тс через 5 дней прибежит со словами "винт приехал новый, да ребилдить уже нечего" (тьфу,тьфу,тьфу)... пользуясь случаем ТС-у рекомендую даже не ждать возврата винта нового из гарантии а топать покупать другой и ставить уже сейчас.

---------- Добавлено 05.07.2012 в 17:43 ----------

zexis:
Да и в сервере 1U всего 4 корзины. Так что HotSpare ставить не куда.
По хорошему конечно надо
1) всегда иметь уже купленный запасной диск такой же модели, что бы сразу его заменить, а не ждать несколько дней замены в магазине.
2) Настроить регулярные автоматические бекапы на другой сервер или VPS.

Мне вот интересно когда вы raid-10 собирали вы не думали что у вас может винт умереть ? :) или че ? Поставили бы туда 2 U ... или собрали бы лучше raid-5 из 3х дисков , а 4й всунули HS. Ну как-то так.. А сейчас вы на пороховой бочке сидите .....

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
zexis
На сайте с 09.08.2005
Offline
388
#12
Romka_Kharkov:

Мне вот интересно когда вы raid-10 собирали вы не думали что у вас может винт умереть ? :) или че ? Поставили бы туда 2 U ... или собрали бы лучше raid-5 из 3х дисков , а 4й всунули HS. Ну как-то так.. А сейчас вы на пороховой бочке сидите .....

У raid5 хуже производительность записи.

Для высоконагруденных баз данных лучше подходт raid 10.

А 1U (а не 2u) беру из экономии.

Оплата за каждый unit порядка 3000 рублей в месяц.

Rimlyanin
На сайте с 22.02.2006
Offline
200
#13
yeugeny1:
Ситуация весьма характерна для 5 рэйда, но с одной ремаркой - второй винт вылетает во время ребилда, как и писал Rimlyanin. А вот с 10 такого почему-то не случалось, может просто везло. Неделю назад восстанавливали 10 рэйд, из 4 дисков "в живых" оставалось только 2 (на наше счастье - пара в страйпе). Всё закончилось вполне благополучно :))))

Там был 6й.

А 10тка да, как повезет с вылетом второго винта.

Romka_Kharkov:
От нагрузки помер винт, это печально ! :) так так бы и новый сдох, какая разница когда его ребилдить начало ?? сразу или когда вы винт воткнули новый, скорее всего контроллер слабенький, или таки время винту подошло. Ну или как вы определили что винт умер в следствии возникшей нагрузки при ребилде масива?

не просто от нагрузки, а от резко возросшей нагрузки. видимо он уже был на пороге смерти, а ребилд его добил.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#14
zexis:
У raid5 хуже производительность записи.
Для высоконагруденных баз данных лучше подходт raid 10.
А 1U (а не 2u) беру из экономии.
Оплата за каждый unit порядка 3000 рублей в месяц.

Вы можете аргументировать это чем хотите, я понимаю разницу между raid-5 и raid-10 .... и понимаю разницу между стоимостью 1U и 2U, дело в том, что сейчас вы у разбитого корыта и вы спрашиваете что делать, так вот я вам намекаю что не всегда лишние 3000 рублей в месяц это "деньги на ветер" они могут и пользу принести как раз вот в такой момент например..... Вам не стремно сейчас вашу высоко нагруженную базу держать на разломанном RAID ? Еще есть кстати вариант с Raid-6 , думаю будет шустрее пятерки.

Если ваша база не стоит 3000 рублей лишних в месяц, тогда у вас практически оптимальный рейд массив в котором нет горячей замены, а состоянием на сейчас и нет 1го винта из массива. Это решение, простите?

---------- Добавлено 06.07.2012 в 17:50 ----------

Rimlyanin:

не просто от нагрузки, а от резко возросшей нагрузки. видимо он уже был на пороге смерти, а ребилд его добил.

Это теория, предположения или факты?

Rimlyanin
На сайте с 22.02.2006
Offline
200
#15
Romka_Kharkov:

Это теория, предположения или факты?

тезка и земляк, конечно же предположения.

Винты были с одной партии, все 6ть (одна корзинка, 6й уровень). Меняем винт, пошел ребилд, на примерно 22% улетает второй.

Заменили и второй, распаковали бакапы, запустили в работу. В течении буквально нескольких месяцев "ушли" ещё три винта.

Благо сервак был уже "многолетний" и на нем ничего важного и критического не оставалось.

P.S. C википедии

Следует также принять во внимание, что процесс RAID Reconstruction (восстановления данных RAID за счет избыточности) после выхода из строя диска вызывает интенсивную нагрузку чтения с дисков на протяжении многих часов непрерывно, что может спровоцировать выход какого-либо из оставшихся дисков из строя в этот наименее защищенный период работы RAID, а также выявить ранее необнаруженные сбои чтения в массивах cold data (данных, к которым не обращаются при обычной работе массива, архивные и малоактивные данные), что повышает риск сбоя при восстановлении данных
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#16
Rimlyanin:
тезка и земляк, конечно же предположения.
Винты были с одной партии, все 6ть (одна корзинка, 6й уровень). Меняем винт, пошел ребилд, на примерно 22% улетает второй.

Заменили и второй, распаковали бакапы, запустили в работу. В течении буквально нескольких месяцев "ушли" ещё три винта.
Благо сервак был уже "многолетний" и на нем ничего важного и критического не оставалось.

P.S. C википедии

Ну, это карма земляк :D

Andreyka
На сайте с 19.02.2005
Offline
822
#17

Это не карма, это контроллер.

Не стоит плодить сущности без необходимости
zexis
На сайте с 09.08.2005
Offline
388
#18

У контроллера есть параметр

Rebuild Rate

По умолчанию его значение равно 30%

Он указывает контроллеру сколько ресурсов использовать для перестройки сломавшегося диска.

Цитата из документации контроллера

The rebuild rate is the percentage of the compute cycles dedicated to rebuilding failed

drives. A rebuild rate of 100 percent means that the system gives priority to rebuilding

the failed drives.

The rebuild rate can be configured between 0 percent and 100 percent. At 0 percent,

the rebuild is done only if the system is not doing anything else. At 100 percent, the

rebuild has a higher priority than any other system activity. Using 0 or 100 percent is

not recommended. The default rebuild rate is 30 percent.

Возможно задание этого параметра в 30% предотвратит выход из строя других дисков из за нагрузки во время ребилда.

Хотя не уверен, если диск умер во время ребилда, то он и без него бы умер в ближайшее время.

zexis
На сайте с 09.08.2005
Offline
388
#19

Точнее можно сказать так.

Если диск умер во время ребилда, то возможно он уже имел сбойные сектора, но к ним не было обращений, а при ребилде это лишь обнаружилось.

Rimlyanin
На сайте с 22.02.2006
Offline
200
#20

да понятно это все. просто ребилд рейда 5го уровня и ребилд миррора - разная нагрузка. А и умерший первым и второй, также как и оставшиеся три были с одной партии, и отработали они достаточно долго. Так что есть версия, что они просто уже отживали свой ресурс, а ребилд добил один из них.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий