Raid + странная утилизация дисков.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
745

День добрый,

Есть типичный сервер, работает в software raid 1, CentOS.


md1 : active raid1 sdb3[0] sda3[1]
2096384 blocks [2/2] [UU]

md2 : active raid1 sdb5[0] sda5[1]
452735680 blocks [2/2] [UU]

md0 : active raid1 sdb1[0] sda1[1]
31455168 blocks [2/2] [UU]

Smart (sda)


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 239 187 021 Pre-fail Always - 5025
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 43
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x000e 200 200 051 Old_age Always - 0
9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 33183
10 Spin_Retry_Count 0x0012 100 253 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0012 100 253 051 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 33
192 Power-Off_Retract_Count 0x0032 169 169 000 Old_age Always - 23756
193 Load_Cycle_Count 0x0032 193 193 000 Old_age Always - 23758
194 Temperature_Celsius 0x0022 112 091 000 Old_age Always - 40
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0

Smart (sdb)


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 114 099 006 Pre-fail Always - 68452108
3 Spin_Up_Time 0x0003 095 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 183
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 084 060 030 Pre-fail Always - 324079499
9 Power_On_Hours 0x0032 032 032 000 Old_age Always - 59913
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 135
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 060 047 045 Old_age Always - 40 (Min/Max 29/46)
194 Temperature_Celsius 0x0022 040 053 000 Old_age Always - 40 (0 17 0 0 0)
195 Hardware_ECC_Recovered 0x001a 055 051 000 Old_age Always - 146100072
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0

В общем по сути, во первых винты в зеркальном рейде почему-то асинхронно разделяют нагрузку, а на годичном графике прямо четко заметна разница, по смарту винты выглядят целыми, в логах по sda однажды(!) проскакивало следующее:


[4977936.859846] ata3.00: exception Emask 0x0 SAct 0x100000 SErr 0x0 action 0x6 frozen
[4977936.859963] ata3.00: cmd 60/30:a0:5d:fc:26/00:00:16:00:00/40 tag 20 ncq 24576 in
[4977936.859964] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[4977936.860175] ata3.00: status: { DRDY }
[4977936.860235] ata3: hard resetting link
[4977942.198838] ata3: link is slow to respond, please be patient (ready=0)
[4977946.877571] ata3: COMRESET failed (errno=-16)
[4977946.877643] ata3: hard resetting link
[4977949.521102] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[4977949.546890] ata3.00: configured for UDMA/133
[4977949.546902] ata3: EH complete
[4977949.546942] SCSI device sda: 1465149168 512-byte hdwr sectors (750156 MB)
[4977949.547012] sda: Write Protect is off
[4977949.547069] sda: Mode Sense: 00 3a 00 00
[4977949.547084] SCSI device sda: drive cache: write back

В системе заметно увеличилось i/o wait. SDA достигает 100% утилизации при том, что sdb работает около 50%....

Причем бывает даже вот такое:


avg-cpu: %user %nice %system %iowait %steal %idle
11.55 0.00 4.38 50.55 0.00 33.52

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 5.20 0.20 31.20 1.60 574.40 18.34 141.10 3369.40 31.85 100.02
sda1 0.00 0.00 0.00 6.40 0.00 353.60 55.25 13.85 2965.59 156.28 100.02
sda2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda3 0.00 2.80 0.00 11.00 0.00 102.40 9.31 57.86 3287.40 90.93 100.02
sda4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda5 0.00 2.40 0.20 13.80 1.60 118.40 8.57 69.39 3618.43 71.44 100.02
sdb 0.00 4.20 0.00 28.20 0.00 259.20 9.19 0.05 1.87 0.13 0.36
sdb1 0.00 0.00 0.00 1.60 0.00 12.80 8.00 0.00 1.12 0.62 0.10
sdb2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb3 0.00 2.60 0.00 13.00 0.00 124.80 9.60 0.02 1.75 0.09 0.12
sdb4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb5 0.00 1.60 0.00 13.60 0.00 121.60 8.94 0.03 2.06 0.10 0.14
md0 0.00 0.00 0.00 1.40 0.00 11.20 8.00 0.00 0.00 0.00 0.00
md2 0.00 0.00 0.20 0.00 1.60 0.00 8.00 0.00 0.00 0.00 0.00
md1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

avg-cpu: %user %nice %system %iowait %steal %idle
71.67 0.00 14.83 8.40 0.00 5.10

Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 152.00 0.40 84.60 3.20 905.60 10.69 141.22 2264.78 11.77 100.02
sda1 0.00 38.80 0.00 15.80 0.00 244.80 15.49 40.27 1882.34 63.16 99.80
sda2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda3 0.00 4.80 0.00 31.20 0.00 304.00 9.74 44.31 2626.68 29.56 92.22
sda4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda5 0.00 108.40 0.40 37.60 3.20 356.80 9.47 56.63 2126.65 26.32 100.02
sdb 0.00 149.80 2.20 85.60 17.60 1883.20 21.65 10.23 116.47 2.74 24.04
sdb1 0.00 37.40 0.00 28.60 0.00 528.00 18.46 1.78 62.21 3.64 10.42
sdb2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb3 0.00 4.40 0.00 23.60 0.00 224.00 9.49 1.56 66.01 2.94 6.94
sdb4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb5 0.00 108.00 2.20 33.40 17.60 1131.20 32.27 6.89 193.52 6.16 21.94
md0 0.00 0.00 0.00 70.80 0.00 566.40 8.00 0.00 0.00 0.00 0.00
md2 0.00 0.00 2.40 110.40 19.20 883.20 8.00 0.00 0.00 0.00 0.00
md1 0.00 0.00 0.00 5.80 0.00 46.40 8.00 0.00 0.00 0.00 0.00

Слепая теория, говорит мне о том, что SDA пора менять.... однако ничего об этом явно говорящего я не наблюдаю, попробую конечно на днях вынять SDA из рейда... посмотреть на то, что получится в результате.... но может у кого-то есть еще какие-то соображения, буду рад выслушать!

Всем заранее спасибо!

png sda-day.png
png sda-year.png
png sdb-day.png
png sdb-year.png
Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
Andreyka
На сайте с 19.02.2005
Offline
822
#1

Сыпется диск/Покоцался шлейф/Потек кондер на контроллере(материнке)/Барахлит блок питания/Смешная опция, потому что первое апреля, но мне лениво шутить, просто поставьте спасибо и посмешите себя сами.

Не стоит плодить сущности без необходимости
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#2

Уже второе Апреля )))

Есть у кого-то какие-то соображения по теме кроме изложенных выше?

N
На сайте с 06.05.2007
Offline
419
#3

Romka_Kharkov, эти нормальные были причины.

Программно такое можно случайно изобразить только с помощью --write-mostly, но про это надо знать и вы про это упомянули бы.

Кнопка вызова админа ()
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#4

Понял, значит буду аппаратную часть смотреть.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий