mismatch_cnt is not 0 (RAID)

12
P2
На сайте с 28.04.2010
Offline
9
1727

mismatch_cnt md2 показывает 1024 блоков

repair && check не исправили ситуацию, mismatch_cnt остался не равным 0

Что можно предпринять в данной ситуации?

M
На сайте с 01.12.2009
Offline
235
#1

большое значение mismatch_cnt означает проблемы с дисками. И по возможности диски надо побыстрее заменить.

Администратор Linux,Freebsd. построения крупных проектов.
M
На сайте с 16.09.2009
Offline
278
#2
palladium2010:
mismatch_cnt md2 показывает 1024 блоков
repair && check не исправили ситуацию, mismatch_cnt остался не равным 0
Что можно предпринять в данной ситуации?

1) что на md2? какие файловые системы, своп есть?

2) "не равным 0" - значит равным чему??? Согласитесь, если 1 или 10 - это одно. Если 1000 - уже другое.

Короче, из вашего описания не факт - что есть реальная проблема. В нормальной ситуации такое также возможно, см.:

http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=405919

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
P2
На сайте с 28.04.2010
Offline
9
#3
myhand:
1) что на md2? какие файловые системы, своп есть?
2) "не равным 0" - значит равным чему??? Согласитесь, если 1 или 10 - это одно. Если 1000 - уже другое.

Короче, из вашего описания не факт - что есть реальная проблема. В нормальной ситуации такое также возможно, см.:
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=405919

mismatch_cnt = 1024

swap 852k used

boot && tmp на md1 а все остальное на md2

M
На сайте с 16.09.2009
Offline
278
#4

Вполне возможно - дело именно в swap (хотя там еще несколько вариантов работы было, что приводят к аналогичному росту mismatch_cnt).

Но у меня после repair и check - все сбрасывается в ~0 (а при периодических проверках mismatch_cnt доходит до 100-200).

Чтобы успокоиться - разберитесь со smart дисков. Может там есть реальный повод волноваться. Если сервер арендуете - попросите заменить наиболее подозрительный диск и посмотрите что будет.

Pavel.Odintsov
На сайте с 13.05.2009
Offline
169
#5
palladium2010:
mismatch_cnt md2 показывает 1024 блоков
repair && check не исправили ситуацию, mismatch_cnt остался не равным 0
Что можно предпринять в данной ситуации?

Покажите смарт (smartctl --all /dev/sda) всех винтов массива?

Решение по обнаружению DDoS атак для хостинг компаний, дата центров и операторов связи: FastNetMon (https://fastnetmon.com)
P2
На сайте с 28.04.2010
Offline
9
#6

смарт ошибок не нашел. Если нужно могу показать всю информацию по смарт

M
На сайте с 16.09.2009
Offline
278
#7
palladium2010:
смарт ошибок не нашел. Если нужно могу показать всю информацию по смарт

Покажите. Любопытно понаблюдать, что Вам подскажут местные "специалисты".

palladium2010:
mismatch_cnt = 1024

Давайте последний раз определимся.

Это у Вас сразу после repair & check? Или только по прошествии сравнительно продолжительного времени после? Если последнее - то волноваться особо точно нет причины, это именно ситуация, описаная в баге.

P2
На сайте с 28.04.2010
Offline
9
#8
myhand:
Покажите. Любопытно понаблюдать, что Вам подскажут местные "специалисты".


Давайте последний раз определимся.
Это у Вас сразу после repair & check? Или только по прошествии сравнительно продолжительного времени после? Если последнее - то волноваться особо точно нет причины, это именно ситуация, описаная в баге.

mismatch_cnt = 1024 было до рипеа и сразу после и есть сейчас.

Если из-за свапа такое то как свап привести к 0?

Сервер работает недели 2-3. mismatch_cnt стал не равным 0 и свап также только несколько дней назад

palladium2010 добавил 14.10.2010 в 20:56

Pavel.Odintsov:
Покажите смарт (smartctl --all /dev/sda) всех винтов массива?

 smartctl --all /dev/sda

smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: SAMSUNG HD754JJ
Serial Number: S281J90Z500142
Firmware Version: 1AJ10001
User Capacity: 750,156,374,016 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: Not recognized. Minor revision code: 0x28
Local Time is: Thu Oct 14 20:55:20 2010 MSD

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (6900) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 115) minutes.
SCT capabilities: (0x003f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
2 Throughput_Performance 0x0026 053 053 000 Old_age Always - 6626
3 Spin_Up_Time 0x0023 070 070 025 Pre-fail Always - 9325
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 4
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 471
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 4
191 G-Sense_Error_Rate 0x0022 252 252 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 064 062 000 Old_age Always - 36 (Lifetime Min/Max 19/39)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 252 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 17174
223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 4

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 381 -

SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Completed [00% left] (0-65535)
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
P2
На сайте с 28.04.2010
Offline
9
#9

smartctl --all /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: SAMSUNG HD754JJ
Serial Number: S281J90Z500139
Firmware Version: 1AJ10001
User Capacity: 750,156,374,016 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: Not recognized. Minor revision code: 0x28
Local Time is: Thu Oct 14 20:56:46 2010 MSD

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (6780) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 113) minutes.
SCT capabilities: (0x003f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 84
2 Throughput_Performance 0x0026 052 052 000 Old_age Always - 6706
3 Spin_Up_Time 0x0023 070 070 025 Pre-fail Always - 9285
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 4
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 471
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 4
191 G-Sense_Error_Rate 0x0022 252 252 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 064 064 000 Old_age Always - 32 (Lifetime Min/Max 18/35)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 252 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 27576
223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 4

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 441 -

SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Completed [00% left] (0-65535)
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
M
На сайте с 16.09.2009
Offline
278
#10
palladium2010:
mismatch_cnt = 1024 было до рипеа и сразу после и есть сейчас.
Если из-за свапа такое то как свап привести к 0?
Сервер работает недели 2-3. mismatch_cnt стал не равным 0 и свап также только несколько дней назад

В принципе, своп - только один вариант, приводящий к mismatch_cnt != 0 в "нормальной" ситуации.

Отключите swap или /proc/sys/vm/swappiness поменьше сделайте. repair & check - и посмотрите что будет.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий