диск в raid1 поломался. что дальше?

G2
На сайте с 25.04.2008
Offline
138
1685

запускаю fsck.ext3 /dev/md127 в rescue mode. оно пишет deleted inode has zero dtime?, я отвечаю yes. я так понимаю он исправляет эту ошибку и удаляет файл. так прошло минуты 2, потом дошло что не нужно было yes жать.

что теперь делать? он на обоих дисках удалял файлы?

И самое главное как в rescue mode узнать какой диск дохнет? или на каком ошибки пошли первоначально? smart ошибок не даёт.

Поднимаю тИЦ (/ru/forum/752925) Покупаю QIWI (/ru/forum/684863) Налю $$$ через ePayments Card (https://www.epayments.com/registration?p=ae593ade60)
Андрей
На сайте с 30.09.2009
Offline
482
#1

fsck вы запускали по рейду ведь а не по диску, значит операция выполнялась на двух.

Покажите весь вывод:

smartctl -a /dev/sda
smartctl -a /dev/sdb
EuroHoster.org ( https://eurohoster.org/ru/ ) - территория быстрых серверов. Выделенные серверы, VPS, SSL, домены и VPN.
M
На сайте с 14.01.2010
Offline
208
#2

cat /proc/mdstat покажет какой винт в строю, а какой улетел из рейда, Или утилиту atop поставьте и там смотрите.

Нет свободных падений с высот, Но зато есть свобода раскрыть парашют. Куплю BTC-E code за Privat24 UAH. icq: 698- 375- 092
G2
На сайте с 25.04.2008
Offline
138
#3
WapGraf:
fsck вы запускали по рейду ведь а не по диску, значит операция выполнялась на двух.
Покажите весь вывод:
smartctl -a /dev/sda

smartctl -a /dev/sdb

(root@rescue)-(~) $ smartctl -a /dev/sda

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.5.4] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: SAMSUNG SpinPoint F1 DT
Device Model: SAMSUNG HD753LJ
Serial Number: S13UJDWS203513
LU WWN Device Id: 5 0024e9 0010cfc40
Firmware Version: 1AA01113
User Capacity: 750,156,374,016 bytes [750 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 3b
Local Time is: Sat Mar 1 13:03:06 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (10701) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off supp ort.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 179) minutes.
Conveyance self-test routine
recommended polling time: ( 19) minutes.
SCT capabilities: (0x003f) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_ FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0007 077 077 011 Pre-fail Always - 7700
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 76
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
8 Seek_Time_Performance 0x0025 100 100 015 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 35323
10 Spin_Retry_Count 0x0033 100 100 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0012 100 100 000 Old_age Always - 2
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 76
13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 0
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 000 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 062 044 000 Old_age Always - 38 (Min/Max 38/38)
194 Temperature_Celsius 0x0022 062 043 000 Old_age Always - 38 (8 44 39 38)
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 3355655
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

(root@rescue)-(~) $
G2
На сайте с 25.04.2008
Offline
138
#4

(root@rescue)-(~) $ smartctl -a /dev/sdb

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.5.4] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: SAMSUNG SpinPoint F1 DT
Device Model: SAMSUNG HD752LJ
Serial Number: S12UJ1CS300096
LU WWN Device Id: 5 0024e9 00124d829
Firmware Version: 1AA01113
User Capacity: 750,156,374,016 bytes [750 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 3b
Local Time is: Sat Mar 1 13:05:29 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 7868) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 132) minutes.
Conveyance self-test routine
recommended polling time: ( 15) minutes.
SCT capabilities: (0x003f) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0007 076 076 011 Pre-fail Always - 8110
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 89
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
8 Seek_Time_Performance 0x0025 100 100 015 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 094 094 000 Old_age Always - 30430
10 Spin_Retry_Count 0x0033 100 100 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0012 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 89
13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 0
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 000 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 062 051 000 Old_age Always - 38 (Min/Max 38/38)
194 Temperature_Celsius 0x0022 062 049 000 Old_age Always - 38 (40 161 39 38)
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 14203503
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

(root@rescue)-(~) $

в cat proc mdstat все UU

Андрей
На сайте с 30.09.2009
Offline
482
#5

Seek Error Rate не очень хороший признак.

Запустите полный тест

smartctl -t long /dev/sda

Выполняется часов 6.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#6

grey2, исходя из сказанного вами.... поясните лучше причину, по которой вы посчитали, что умер один из дисков..... А то смарты ваши.... выглядят более менее прилично, по крайней мере не вижу явных признаков при которых разваливается рейд обычно.... (чаще всего это DMA ошибки которые отражаются в SMART или наличие кучи плохих секторов, ни того ни другого не видать)...

WapGraf верно советует, надо придать диски long тесту..... станет понятнее....

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
Оптимизайка
На сайте с 11.03.2012
Offline
396
#7
grey2:
И самое главное как в rescue mode узнать какой диск дохнет? или на каком ошибки пошли первоначально? smart ошибок не даёт.

raid поможет только при физическом отказе диска, а у вас было нарушение логической структуры (файловой системы) - поэтому это все отзеркалировалось наверняка нормально. Наличие рэйда не отменяет необходимости бэкапов ☝

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
E
На сайте с 15.07.2009
Offline
123
#8
masterlan:
cat /proc/mdstat покажет какой винт в строю, а какой улетел из рейда, Или утилиту atop поставьте и там смотрите.

Да, такое у hetzner нормальное явление - жд мрут, они у них старье. Мало того, просишь заменить ЖД, они живой снимают, пустой ставят, теряешь время на этом.

seocore
На сайте с 25.09.2006
Offline
143
#9
WapGraf:
Seek Error Rate не очень хороший признак.

он то тут причем? - ошибки позиционирования для дисков - это нормально, их нетипичный рост может быть из-за перегрева блинов, но чисто технически - этот показатель ни о чем

долгий тест запускать не имеет смысла, так как если бы ошибки были в рабочей зоне (где находятся данные), то в смарте это бы отображено было, лонгтест имеет смысл при первом запуске (проверить не появились ли новые риаллокейты и т.п.)

Инструменты для веб-мастера: кластеризатор СЯ (https://goo.gl/MQWfqO), все запросы конкурента (https://goo.gl/hd5uHS), дешевые XML-лимиты (https://goo.gl/aDZbPI)
Андрей
На сайте с 30.09.2009
Offline
482
#10
seocore:
он то тут причем? - ошибки позиционирования для дисков - это нормально, их нетипичный рост может быть из-за перегрева блинов, но чисто технически - этот показатель ни о чем

Ключевое слово "признак".

seocore:
долгий тест запускать не имеет смысла, так как если бы ошибки были в рабочей зоне (где находятся данные), то в смарте это бы отображено было, лонгтест имеет смысл при первом запуске (проверить не появились ли новые риаллокейты и т.п.)

На практике это далеко не всегда так.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий