flush на сервере

123 4
zloj
На сайте с 06.08.2007
Offline
140
1968

В последнее время переодические тормоза на сервере, нормально работает две минуты, потом секунд 10 - 15 всё подвисает, и так далее. При подвисании в топе такая картина - один процесс судя по всему занимает все ресурсы;

top - 11:47:35 up 81 days, 17:30,  1 user,  load average: 3.81, 2.68, 2.40

Tasks: 257 total, 3 running, 253 sleeping, 1 stopped, 0 zombie
Cpu(s): 0.0%us, 1.1%sy, 0.0%ni, 81.7%id, 17.2%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 16243636k total, 15035208k used, 1208428k free, 346072k buffers
Swap: 33553328k total, 273988k used, 33279340k free, 10743592k cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
541 root 20 0 0 0 0 R 8.3 0.0 231:54.91 flush-9:2
507 root 20 0 0 0 0 D 4.7 0.0 446:28.55 md2_raid1
546 root 20 0 0 0 0 R 1.3 0.0 146:16.84 jbd2/md2-8
3534 root 25 5 0 0 0 D 0.7 0.0 0:42.98 md2_resync
1 root 20 0 19224 964 768 S 0.0 0.0 0:17.73 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
3 root RT 0 0 0 0 S 0.0 0.0 2:55.25 migration/0
4 root 20 0 0 0 0 S 0.0 0.0 1:48.40 ksoftirqd/0
5 root RT 0 0 0 0 S 0.0 0.0 0:00.00 migration/0
6 root RT 0 0 0 0 S 0.0 0.0 0:04.39 watchdog/0
7 root RT 0 0 0 0 S 0.0 0.0 0:06.38 migration/1
8 root RT 0 0 0 0 S 0.0 0.0 0:00.00 migration/1
9 root 20 0 0 0 0 S 0.0 0.0 0:51.47 ksoftirqd/1
10 root RT 0 0 0 0 S 0.0 0.0 0:02.70 watchdog/1
11 root RT 0 0 0 0 S 0.0 0.0 0:01.68 migration/2
12 root RT 0 0 0 0 S 0.0 0.0 0:00.00 migration/2
13 root 20 0 0 0 0 S 0.0 0.0 3:16.02 ksoftirqd/2

Насколько я понимаю это сброс кеша на диск, как это побороть (не сброс кеша побороть - такие явные тормоза)?

S
На сайте с 21.05.2012
Offline
11
#1

Судя по скриншоту flush тут не причем, но большой % wa. Имхо какой-то диск в рейде сыпется. Покажите смарты дисков, есть в логах какие-то ошибки по дискам?

Администрирование и мониторинг серверов (http://servcare.com)
zloj
На сайте с 06.08.2007
Offline
140
#2

Servcare, вот:

cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1] sda2[0]
524276 blocks super 1.0 [2/2] [UU]

md3 : active raid1 sda5[0] sdb5[1]
1822445428 blocks super 1.0 [2/2] [UU]

md0 : active raid1 sda1[0] sdb1[1]
33553336 blocks super 1.0 [2/2] [UU]

md2 : active raid1 sdb3[1] sda3[0]
1073741688 blocks super 1.0 [2/2] [UU]
[==>..................] check = 10.9% (117888384/1073741688) finish=2712.1min speed=5873K/sec

unused devices: <none>
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#3

zloj, так у вас реконструкция массива идет, еще бы wa не рос :D

Ждите 2712 минут, потом станет легче, либо разгрузите сервер что бы реконструкция прошла быстрее.

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
zloj
На сайте с 06.08.2007
Offline
140
#4

Romka_Kharkov, такие тормоза уже на протяжении месяца - полутора...

---------- Добавлено 06.05.2013 в 18:03 ----------

Servcare, сорри, ступил:

smartctl -i /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.5.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda XT
Device Model: ST33000651AS
Serial Number: Z290ALGA
LU WWN Device Id: 5 000c50 03541cbb1
Firmware Version: CC45
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon May 6 13:02:07 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

smartctl -i /dev/sdb
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.5.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda XT
Device Model: ST33000651AS
Serial Number: Z2915MCV
LU WWN Device Id: 5 000c50 03ed3532f
Firmware Version: CC45
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon May 6 13:02:17 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


---------- Добавлено 06.05.2013 в 18:08 ----------

smartctl -A /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.5.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 117 099 006 Pre-fail Always - 152521181
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 6
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 090 060 030 Pre-fail Always - 991582498
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 12938
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 6
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 053 047 045 Old_age Always - 47 (Min/Max 23/53)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 047 053 000 Old_age Always - 47 (0 23 0 0 0)
195 Hardware_ECC_Recovered 0x001a 033 017 000 Old_age Always - 152521181
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 122866129449610
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 1810207321
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 3116212531

smartctl -A /dev/sdb
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.5.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 119 099 006 Pre-fail Always - 207375754
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 6
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 090 060 030 Pre-fail Always - 993425452
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 12939
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 6
183 Runtime_Bad_Block 0x0032 098 098 000 Old_age Always - 2
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 099 099 000 Old_age Always - 1
190 Airflow_Temperature_Cel 0x0022 057 050 045 Old_age Always - 43 (Min/Max 23/50)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 043 050 000 Old_age Always - 43 (0 23 0 0 0)
195 Hardware_ECC_Recovered 0x001a 032 017 000 Old_age Always - 207375754
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 268916492350091
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 1665794127
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 530364699
Andreyka
На сайте с 19.02.2005
Offline
822
#5

Что, полтора месяца райд синкается?

Не стоит плодить сущности без необходимости
Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#6

zloj, ну если вы их лечите .... путем ребута сервера, то у вас может и рейд уже месяц собирается, как же тут понять то, сейчас вполне нормально и должно тормозить, так как идет синхронизация вашего raid-1 т.е копируются данные ровно как и на первом винте, по этому рост WA в данном случае является нормальным. По концепции я бы рекомендовал дождаться , пока рейд закончит синхронизацию, а потом бы уже смотрел тормозит или нет..... В момент ребилда рейда тормозить может так что у вас WA будет и 80 и 90 % легко.... от винтов многое зависит.

Смарты ваши на первый взгляд чистые .... 12 тысяч часов наработки у винтов, поставлены одновременно (разница всего 1 час)... Ремапов нет, стало быть винты в норме.... Кстати, а можно еще результат df -h увидеть, а то я редко вижу что бы через mdadm нарезали столько разделов :D понять бы что там у вас к чему, может у вас параллельно с ребилдом рейда еще и данные заливаются в какойнить /storage ? ведь 3 TRB видать не с проста? :)

Кстати, на скорость синхронизации вроде как влияет еще:

/proc/sys/dev/raid/speed_limit_max

/proc/sys/dev/raid/speed_limit_min

Поиграться можно с этими параметрами.

zloj
На сайте с 06.08.2007
Offline
140
#7
Romka_Kharkov:
ну если вы их лечите .... путем ребута сервера, то у вас может и рейд уже месяц собирается

Аптайм 81 день

Romka_Kharkov:
а можно еще результат df -h увидеть

 df -h
Filesystem Size Used Avail Use% Mounted on
/dev/md2 1016G 159G 807G 17% /
/dev/md1 496M 82M 390M 18% /boot
/dev/md3 1.7T 356G 1.3T 22% /home
Romka_Kharkov:
ведь 3 TRB видать не с проста?

Хетзнер ставит такие винты.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#8

Тогда точно ждите окончания ребилда, после этого можно будет о чем-то говорить более предметно ..... а пока вся ваша загрузка легко списывается на ребилд винтов.... Кстати, у вас какой-то монитор есть на эту тему? Возможно у вас из md устройства по какой-то причине периодически винт выпадает?

Хотя у вас там "check" написано, по моему если синкается то пишет sync: ? может просто очередная проверка целостности, оно не закончилось еще?

M
На сайте с 24.10.2011
Offline
173
#9
Romka_Kharkov:
Хотя у вас там "check" написано, по моему если синкается то пишет sync: ? может просто очередная проверка целостности, оно не закончилось еще?

это не ребилд, да, верификация. отменить можно через

/usr/share/mdadm/checkarray -x --all
SP
На сайте с 04.02.2009
Offline
123
#10

Походу такая же проблема и у меня :(.

/ru/forum/790438

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий