диск в raid1 поломался. что дальше?

138

grey2

1 марта 2014, 10:35

1716

запускаю fsck.ext3 /dev/md127 в rescue mode. оно пишет deleted inode has zero dtime?, я отвечаю yes. я так понимаю он исправляет эту ошибку и удаляет файл. так прошло минуты 2, потом дошло что не нужно было yes жать.

что теперь делать? он на обоих дисках удалял файлы?

И самое главное как в rescue mode узнать какой диск дохнет? или на каком ошибки пошли первоначально? smart ошибок не даёт.

Поднимаю тИЦ (/ru/forum/752925) Покупаю QIWI (/ru/forum/684863) Налю $$$ через ePayments Card (https://www.epayments.com/registration?p=ae593ade60)

[Удален]

1 марта 2014, 11:06

#1

fsck вы запускали по рейду ведь а не по диску, значит операция выполнялась на двух.

Покажите весь вывод:

smartctl -a /dev/sda
smartctl -a /dev/sdb

M

208

masterlan

1 марта 2014, 11:38

#2

cat /proc/mdstat покажет какой винт в строю, а какой улетел из рейда, Или утилиту atop поставьте и там смотрите.

Нет свободных падений с высот, Но зато есть свобода раскрыть парашют. Куплю BTC-E code за Privat24 UAH. icq: 698- 375- 092

G2

138

grey2

1 марта 2014, 12:04

#3

WapGraf:
fsck вы запускали по рейду ведь а не по диску, значит операция выполнялась на двух.
Покажите весь вывод:

smartctl -a /dev/sda

smartctl -a /dev/sdb

(root@rescue)-(~) $ smartctl -a /dev/sda

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.5.4] (local build)

Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net



=== START OF INFORMATION SECTION ===

Model Family:     SAMSUNG SpinPoint F1 DT

Device Model:     SAMSUNG HD753LJ

Serial Number:    S13UJDWS203513

LU WWN Device Id: 5 0024e9 0010cfc40

Firmware Version: 1AA01113

User Capacity:    750,156,374,016 bytes [750 GB]

Sector Size:      512 bytes logical/physical

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   8

ATA Standard is:  ATA-8-ACS revision 3b

Local Time is:    Sat Mar  1 13:03:06 2014 CET

SMART support is: Available - device has SMART capability.

SMART support is: Enabled



=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



General SMART Values:

Offline data collection status:  (0x00) Offline data collection activity

                                        was never started.

                                        Auto Offline Data Collection: Disabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever

                                        been run.

Total time to complete Offline

data collection:                (10701) seconds.

Offline data collection

capabilities:                    (0x7b) SMART execute Offline immediate.

                                        Auto Offline data collection on/off supp                                                                             ort.

                                        Suspend Offline collection upon new

                                        command.

                                        Offline surface scan supported.

                                        Self-test supported.

                                        Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine

recommended polling time:        (   2) minutes.

Extended self-test routine

recommended polling time:        ( 179) minutes.

Conveyance self-test routine

recommended polling time:        (  19) minutes.

SCT capabilities:              (0x003f) SCT Status supported.

                                        SCT Error Recovery Control supported.

                                        SCT Feature Control supported.

                                        SCT Data Table supported.



SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_                                                                             FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -                                                                                    0

  3 Spin_Up_Time            0x0007   077   077   011    Pre-fail  Always       -                                                                                    7700

  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -                                                                                    76

  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -                                                                                    0

  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -                                                                                    0

  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -                                                                                    0

  9 Power_On_Hours          0x0032   093   093   000    Old_age   Always       -                                                                                    35323

 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -                                                                                    0

 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -                                                                                    2

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -                                                                                    76

 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -                                                                                    0

183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -                                                                                    0

184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -                                                                                    0

187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -                                                                                    0

188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -                                                                                    0

190 Airflow_Temperature_Cel 0x0022   062   044   000    Old_age   Always       -                                                                                    38 (Min/Max 38/38)

194 Temperature_Celsius     0x0022   062   043   000    Old_age   Always       -                                                                                    38 (8 44 39 38)

195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -                                                                                    3355655

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -                                                                                    0

197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -                                                                                    0

198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -                                                                                    0

199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -                                                                                    0

200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -                                                                                    0

201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -                                                                                    0



SMART Error Log Version: 1

No Errors Logged



SMART Self-test log structure revision number 1

No self-tests have been logged.  [To run self-tests, use: smartctl -t]





SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.



(root@rescue)-(~) $

G2

138

grey2

1 марта 2014, 12:06

#4

(root@rescue)-(~) $ smartctl -a /dev/sdb

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.5.4] (local build)

Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net



=== START OF INFORMATION SECTION ===

Model Family:     SAMSUNG SpinPoint F1 DT

Device Model:     SAMSUNG HD752LJ

Serial Number:    S12UJ1CS300096

LU WWN Device Id: 5 0024e9 00124d829

Firmware Version: 1AA01113

User Capacity:    750,156,374,016 bytes [750 GB]

Sector Size:      512 bytes logical/physical

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   8

ATA Standard is:  ATA-8-ACS revision 3b

Local Time is:    Sat Mar  1 13:05:29 2014 CET

SMART support is: Available - device has SMART capability.

SMART support is: Enabled



=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



General SMART Values:

Offline data collection status:  (0x00) Offline data collection activity

                                        was never started.

                                        Auto Offline Data Collection: Disabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever

                                        been run.

Total time to complete Offline

data collection:                ( 7868) seconds.

Offline data collection

capabilities:                    (0x7b) SMART execute Offline immediate.

                                        Auto Offline data collection on/off support.

                                        Suspend Offline collection upon new

                                        command.

                                        Offline surface scan supported.

                                        Self-test supported.

                                        Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine

recommended polling time:        (   2) minutes.

Extended self-test routine

recommended polling time:        ( 132) minutes.

Conveyance self-test routine

recommended polling time:        (  15) minutes.

SCT capabilities:              (0x003f) SCT Status supported.

                                        SCT Error Recovery Control supported.

                                        SCT Feature Control supported.

                                        SCT Data Table supported.



SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0

  3 Spin_Up_Time            0x0007   076   076   011    Pre-fail  Always       -       8110

  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       89

  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0

  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       0

  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       30430

 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0

 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       89

 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0

183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0

184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0

187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0

188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0

190 Airflow_Temperature_Cel 0x0022   062   051   000    Old_age   Always       -       38 (Min/Max 38/38)

194 Temperature_Celsius     0x0022   062   049   000    Old_age   Always       -       38 (40 161 39 38)

195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       14203503

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0

201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0



SMART Error Log Version: 1

No Errors Logged



SMART Self-test log structure revision number 1

No self-tests have been logged.  [To run self-tests, use: smartctl -t]





SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.



(root@rescue)-(~) $

в cat proc mdstat все UU

[Удален]

1 марта 2014, 12:11

#5

Seek Error Rate не очень хороший признак.

Запустите полный тест

smartctl -t long /dev/sda

Выполняется часов 6.

485

Romka_Kharkov

1 марта 2014, 13:02

#6

grey2, исходя из сказанного вами.... поясните лучше причину, по которой вы посчитали, что умер один из дисков..... А то смарты ваши.... выглядят более менее прилично, по крайней мере не вижу явных признаков при которых разваливается рейд обычно.... (чаще всего это DMA ошибки которые отражаются в SMART или наличие кучи плохих секторов, ни того ни другого не видать)...

WapGraf верно советует, надо придать диски long тесту..... станет понятнее....

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)

на каких дисках выбрать Изношенность диска ua-hosting.company: облачный сервер в

396

Оптимизайка

1 марта 2014, 13:41

#7

grey2:
И самое главное как в rescue mode узнать какой диск дохнет? или на каком ошибки пошли первоначально? smart ошибок не даёт.

raid поможет только при физическом отказе диска, а у вас было нарушение логической структуры (файловой системы) - поэтому это все отзеркалировалось наверняка нормально. Наличие рэйда не отменяет необходимости бэкапов ☝

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!

E

123

Exhang

13 марта 2014, 18:25

#8

masterlan:
cat /proc/mdstat покажет какой винт в строю, а какой улетел из рейда, Или утилиту atop поставьте и там смотрите.

Да, такое у hetzner нормальное явление - жд мрут, они у них старье. Мало того, просишь заменить ЖД, они живой снимают, пустой ставят, теряешь время на этом.

143

seocore

15 марта 2014, 00:14

#9

WapGraf:
Seek Error Rate не очень хороший признак.

он то тут причем? - ошибки позиционирования для дисков - это нормально, их нетипичный рост может быть из-за перегрева блинов, но чисто технически - этот показатель ни о чем

долгий тест запускать не имеет смысла, так как если бы ошибки были в рабочей зоне (где находятся данные), то в смарте это бы отображено было, лонгтест имеет смысл при первом запуске (проверить не появились ли новые риаллокейты и т.п.)

Инструменты для веб-мастера: кластеризатор СЯ (https://goo.gl/MQWfqO), все запросы конкурента (https://goo.gl/hd5uHS), дешевые XML-лимиты (https://goo.gl/aDZbPI)

Имеет ли смысл покупать Как расшифровать информацию о Плохая история домена: что

[Удален]

15 марта 2014, 00:46

#10

seocore:
он то тут причем? - ошибки позиционирования для дисков - это нормально, их нетипичный рост может быть из-за перегрева блинов, но чисто технически - этот показатель ни о чем

Ключевое слово "признак".

seocore:
долгий тест запускать не имеет смысла, так как если бы ошибки были в рабочей зоне (где находятся данные), то в смарте это бы отображено было, лонгтест имеет смысл при первом запуске (проверить не появились ли новые риаллокейты и т.п.)

На практике это далеко не всегда так.

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Зачем быть уникальным в мире, где все можно скопировать