smart: насколько страшно?

A
На сайте с 14.11.2011
Offline
34
alw
809

Hetzner. Взял несколько серверов на один проектик. Больше половины винтов в смарте показывают такое:

SMART Error Log Version: 1

ATA Error Count: 5

CR = Command Register [HEX]

FR = Features Register [HEX]

SC = Sector Count Register [HEX]

SN = Sector Number Register [HEX]

CL = Cylinder Low Register [HEX]

CH = Cylinder High Register [HEX]

DH = Device/Head Register [HEX]

DC = Device Command Register [HEX]

ER = Error register [HEX]

ST = Status register [HEX]

Powered_Up_Time is measured from power on, and printed as

DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,

SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 5 occurred at disk power-on lifetime: 23055 hours (960 days + 15 hours)

When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 00 02 06 3e 00

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

60 00 00 18 05 3e 40 00 31d+08:28:37.655 READ FPDMA QUEUED

27 00 00 00 00 00 e0 00 31d+08:28:37.627 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 31d+08:28:37.625 IDENTIFY DEVICE

ef 03 46 00 00 00 a0 00 31d+08:28:37.612 SET FEATURES [Set transfer mode]

27 00 00 00 00 00 e0 00 31d+08:28:37.585 READ NATIVE MAX ADDRESS EXT

Error 4 occurred at disk power-on lifetime: 23055 hours (960 days + 15 hours)

When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 00 02 06 3e 00

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

60 00 00 18 05 3e 40 00 31d+08:28:34.624 READ FPDMA QUEUED

27 00 00 00 00 00 e0 00 31d+08:28:34.596 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 31d+08:28:34.595 IDENTIFY DEVICE

ef 03 46 00 00 00 a0 00 31d+08:28:34.582 SET FEATURES [Set transfer mode]

27 00 00 00 00 00 e0 00 31d+08:28:34.554 READ NATIVE MAX ADDRESS EXT

Error 3 occurred at disk power-on lifetime: 23055 hours (960 days + 15 hours)

When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 00 02 06 3e 00

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

60 00 00 18 05 3e 40 00 31d+08:28:31.552 READ FPDMA QUEUED

27 00 00 00 00 00 e0 00 31d+08:28:31.524 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 31d+08:28:31.514 IDENTIFY DEVICE

ef 03 46 00 00 00 a0 00 31d+08:28:31.466 SET FEATURES [Set transfer mode]

27 00 00 00 00 00 e0 00 31d+08:28:31.437 READ NATIVE MAX ADDRESS EXT

Error 2 occurred at disk power-on lifetime: 23055 hours (960 days + 15 hours)

When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 00 02 06 3e 00

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

60 00 00 18 05 3e 40 00 31d+08:28:27.921 READ FPDMA QUEUED

60 00 00 18 06 3e 40 00 31d+08:28:27.919 READ FPDMA QUEUED

27 00 00 00 00 00 e0 00 31d+08:28:27.891 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 31d+08:28:27.890 IDENTIFY DEVICE

ef 03 46 00 00 00 a0 00 31d+08:28:27.877 SET FEATURES [Set transfer mode]

Error 1 occurred at disk power-on lifetime: 23055 hours (960 days + 15 hours)

When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 00 02 06 3e 00

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

60 00 00 18 fe 3d 40 00 31d+08:28:24.867 READ FPDMA QUEUED

60 00 00 18 e3 3d 40 00 31d+08:28:24.288 READ FPDMA QUEUED

60 00 00 18 e2 3d 40 00 31d+08:28:24.267 READ FPDMA QUEUED

60 00 00 18 e3 3b 40 00 31d+08:28:23.682 READ FPDMA QUEUED

60 00 00 18 e2 3b 40 00 31d+08:28:23.682 READ FPDMA QUEUED

Сейчас ошибок нет, все делает вид что работает стабильно. Вопрос - насколько это критично и можно ли оставить так? Или пинать их до тех пор, пока не заменят все винты на диски с чистой историей?

PS Я понимаю что хетцнер - дешевка на десктопах.

Администрирование linux, windows (/ru/forum/671883) icq 4831950
Andreyka
На сайте с 19.02.2005
Offline
822
#1

Запустить smart тест, если будут видны ошибки в тесте - попросить поменять.

Не стоит плодить сущности без необходимости
A
На сайте с 14.11.2011
Offline
34
alw
#2

Смарт тест проходит без ошибок. Меня просто смутило обилие записей на разных винтах об ошибках в прошлом.

Andreyka
На сайте с 19.02.2005
Offline
822
#3

Шлейф мог быть раньше плохой

A
На сайте с 03.06.2011
Offline
29
#4

Меняй диск. Незачем ждать когда он окончательно посыпется.

В //robot.your-server.de/ Server -> Support есть раздел "сменить диск"

A
На сайте с 14.11.2011
Offline
34
alw
#5

Не внимательно читаешь. Подобное наблюдается более чем на половине винтов на 5 серверах. Грубо на 22 винтах из 35.

M
На сайте с 19.01.2011
Offline
65
#6

Из моего опыта проблемы появляются раньше чем ошибки в смартах. Те более по вашим логам дискам уже 3 года самое время отправить их в утиль. Смарт тест - до оного места. Лучше делать fsck -cc и после этого смотреть смарт. Но это долго и не для продакшена.

________________________ я больше не хостер ....
V
На сайте с 25.07.2006
Offline
128
#7

Перво-наперво нужно в суппорт Хетзнерам написать. Это их винты, пусть разбираются, что к чему.

Но, похоже, что это не смертельные ошибки, а какие-то глюки. Может мать пытается какой-то режим нехороший задать, а может и правда со шлейфом проблемы.

А что а атрибутах видно? Покажите полностью, что smartctl --all говорит?

Приватный linux-администратор

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий