Высокая нагрузка на диск sdb в RAID1 массиве

Win33
На сайте с 03.10.2009
Offline
140
822

Здравствуйте!

Столкнулся с проблемой сильной нагрузки на диск sdb в RAID1 массиве, который управляется с помощью mdadm . Операционная система CentOS, RAID1 настроен на нескольких разделах. Нагрузка на sdb достигает 100%, что видно из вывода команды iostat , при этом скорость чтения/записи минимальная. SmartCtl дисков обеих отличный, износ 3%, состояние passed.

Подробности конфигурации:

  • Диски Samsung SSD 870 QVO 2TB, RAID-массивы md125 , md126 и md127 , диск sdb участвует во всех массивах.
  • Проблема началась неожиданно, диск sdb стал очень загружен, в то время как sda не показывает такой высокой активности.
  • Управление массивами производится через mdadm , и вывод команды cat /proc/mdstat показывает, что массивы в нормальном состоянии, но нагрузка на sdb остаётся высокой.

Прикрепил скриншоты

Заранее благодарю за помощь!


png atop.png
png lsblk.png
png mdstat.png
M
На сайте с 17.09.2016
Offline
135
#1

Либо проблема с кабелем (DATA), либо диск трупом скоро будет

Latency - как у обычного HDD, это не нормальное состояние

Win33
На сайте с 03.10.2009
Offline
140
#2
[root@localhost ~]# smartctl -a /dev/sdb
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.88.1.el7.x86_64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     Samsung SSD 870 QVO 2TB
Serial Number:    S6R4NJ0T706750W
LU WWN Device Id: 5 002538 f32706c24
Firmware Version: SVQ02B6Q
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Sep 13 14:55:23 2024 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 160) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       16518
12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       24
177 Wear_Leveling_Count     0x0013   097   097   000    Pre-fail  Always       -       26
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   081   053   000    Old_age   Always       -       19
195 Hardware_ECC_Recovered  0x001a   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
235 Unknown_Attribute       0x0012   099   099   000    Old_age   Always       -       21
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       47137711542

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     16518         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Пометил диск как fail отсоединил от raid масива, и занялся проверкой диска sdb, все тесты успешные даже чтение запись, 

[root@localhost ~]# hdparm -tT /dev/sdb

/dev/sdb:
Timing cached reads:   17900 MB in  1.99 seconds = 8999.39 MB/sec
Timing buffered disk reads: 896 MB in  3.00 seconds = 298.51 MB/sec

только добавляю его назад в массив он опять стает на загрузку 100%, при этом уменьшил скорость перестройки рейда
echo 1000 > /proc/sys/dev/raid/speed_limit_min
echo 5000 > /proc/sys/dev/raid/speed_limit_max

latency огромное. 

M
На сайте с 17.09.2016
Offline
135
#3

SSD/NVME обычно "тупят" на запись, а не чтение

Поэтому этот тест hdparm  ничего не даёт

[Удален]
#4
Снимите нагрузку и сделайте нагрузочный тест с помощью того же fio. Возможно по отдельности на каждом диске вне рейда. Только не оба сразу, файловую чтобы не убить.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий