Замена вышедшего из строя диска в RAID LSI.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#31

Ну так у вас же наверное сервер под нагрузкой стоит, что вы хотите? Отключите сетевой кабель, уверяю вас, пойдет быстрее :D Но для вашего размера это как-то странно, у меня например 15 TRB массив, из 1 TRB винтов, ребилд под нагрузкой занимает не более суток...

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
zexis
На сайте с 09.08.2005
Offline
388
#32

Диск так и не отребилдился.

Перешел в состояние

Other Error Count: 1787

Firmware state: Failed

J
На сайте с 10.07.2012
Offline
1
#33
zexis:
Диск так и не отребилдился.
Перешел в состояние

Other Error Count: 1787
Firmware state: Failed

Тебе нужно получить лог адаптера:

MegaCLi -AdpEventLog -GetEvents -f events.log -aALL

Лог будет в events.log.

ICQ: 628574383
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#34
zexis:
Диск так и не отребилдился.
Перешел в состояние

Other Error Count: 1787
Firmware state: Failed

zexis, видимо контроллер таки не очень или у вас умирают еще какие-то винты, такие аномалии обычно в этих случаях я наблюдаю, хотел сказать об этом еще вчера когда вы написали о ребилде в 5 дней, но потом не стал... мало ли...

Попробуйте без нагрузки ребилд запустить. jnizjo прав, нужен лог контроллера.

zexis
На сайте с 09.08.2005
Offline
388
#35

Диск новый который оказался faild заменил на новый.

Ребилд снова запустился. Посмотрим чем закончится.

Rimlyanin
На сайте с 22.02.2006
Offline
200
#36
Romka_Kharkov:


geom там?

//10 букавок

А то... Фряха и геом...

zexis:
Диск новый который оказался faild заменил на новый.
Ребилд снова запустился. Посмотрим чем закончится.

пальцы скрестил?

[Удален]
#37
zexis:
Диск новый который оказался faild заменил на новый.
Ребилд снова запустился. Посмотрим чем закончится.

1-й сдох - случайность.

2-й - закономерность.

Если 3-й угробите - то будет уже добрая традиция. :) Ну как в анекдоте, Холмс так и не бросил курить трубку...

По теме - пока делается попытка ребилда, возможно имеет смысл посмотреть данные smart (smartmontools свежих версий умеет megaraid'у внутрь), касающиеся температуры и общего самочувствия дисков.

zexis
На сайте с 09.08.2005
Offline
388
#38

Ситуация такая.

1. 12.07.2012 купил новый диск ST32000645SS в www.regard.ru за 7100 руб.

2. Этот диск у меня не отребилдился. С сообщением что диск faild.

3. Отнес его в www.regard.ru для замены. Там его в гарантийном отделе 5 минут разглядывали под лупой и нашли чуть заметный заусенец на пластике или может это заводской дефект отливки пластика. Меньше миллиметра. И с радостью заявили, что вы его стукнули и в гарантийном замене отказываем. Взяли диск на экспертизу. Сказали разберем посмотрим, что вы с ним сделали и дадим окончательный ответ через 2 недели. Хотя диск был в упаковке, нес я его аккуратно и не разу не стукал.

4. Решил случайность, купил в www.regard.ru новый такой же диск

5. Вставил в сервер, запустил ребилд. Примерно через сутки ребилд успешно завершился. Диск перешел в состояние

Firmware state: Online, Spun Up

Массив из состояния Degraded перешел в состояние State : Optimal

Запускаю процедуру проверки целостности

./MegaCli64 -LDCC -Start -L0 -a0

Она доходит до 45% и пишет в логи

Event Description: Error on PD 09(e0xfc/s1) (Error 02)

Event Description: Consistency Check failed on VD 00/0

s1 – это номер того слота в который вставлен новый диск.

При этом каждую секунду в логии контроллера постоянно пишется по несколько таких сообщений


seqNum: 0x00010b8c
Time: Sun Jul 15 22:06:47 2012

Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 09(e0xfc/s1) Path 5000c5004199bff1, CDB: 28 00 6b 39 16 80 00 00 80 00, Sense: b/00/00
Event Data:
===========
Device ID: 9
Enclosure Index: 252
Slot Number: 1
CDB Length: 10
CDB Data:
0028 0000 006b 0039 0016 0080 0000 0000 0080 0000 0000 0000 0000 0000 0000 0000 Sense Length: 40
Sense Data:
0072 000b 004b 0004 0000 0000 0000 0020 0000 000a 0080 0000 0000 0000 0000 0000 006b 0039 0016 00f6 0003 0002 0000 0000 0080 000e 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

Ну и последнее.

После процедуры проверки целостности новый купленный диск снова перешел в состояние

Firmware state: Failed

А массив в состояние

State : Degraded

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#39

zexis, то, что вы пишите, печально :( У меня была следующая история, контролер был рассчитан на 16 винтов, но задействовано было только 8 слотов, и вот нечто похожее было, мы в один и тот же порт включали 2 или 3 винта разных и они с разными ошибками не завершали ребилд или переходили в состояние деградации после пары часов работы.... так вот вышли из положения путем замены слота... а тот слот где это происходило условно отметили как "не работающий", тот же самый винт который первым выпал из массива в другом слоте заребилдился и работает по сей день...

Не знаю, может это единичный случай, может еще у кого-то было похожее, весьма скуден спектр для сбора данных в этой области, простым смертным :D Рейды то не у всех есть, не то что бы много , что бы часто винты менять и наблюдать.

А если проверить ваш новый винт smart-ом ? long test ?

Может вам такой же винт дали, из той же серии неудачной?

P.S: А Кабель менять не пробовали? :O

zexis
На сайте с 09.08.2005
Offline
388
#40
Romka_Kharkov:

так вот вышли из положения путем замены слота... а тот слот где это происходило условно отметили как "не работающий",

Как можно слот заменить?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий