Проблема с хардом

12
k0t
На сайте с 13.07.2008
Offline
99
k0t
2257

Пару раз в сутки в /var/log/messages появляется такое


Mar 2 07:51:58 ksrv kernel: [305400.364672] ata3.00: configured for UDMA/133
Mar 2 07:51:58 ksrv kernel: [305400.364684] ata3: EH complete
Mar 2 07:52:01 ksrv kernel: [305403.796646] ata3.00: configured for UDMA/133
Mar 2 07:52:01 ksrv kernel: [305403.796660] ata3: EH complete
Mar 2 07:52:04 ksrv kernel: [305407.044663] ata3.00: configured for UDMA/133
Mar 2 07:52:04 ksrv kernel: [305407.044679] ata3: EH complete
Mar 2 07:52:08 ksrv kernel: [305410.184674] ata3.00: configured for UDMA/133
Mar 2 07:52:08 ksrv kernel: [305410.184685] ata3: EH complete
Mar 2 07:52:11 ksrv kernel: [305413.552683] ata3.00: configured for UDMA/133
Mar 2 07:52:11 ksrv kernel: [305413.552698] ata3: EH complete
Mar 2 07:52:14 ksrv kernel: [305416.912682] ata3.00: configured for UDMA/133
Mar 2 07:52:14 ksrv kernel: [305416.912700] sd 2:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
Mar 2 07:52:14 ksrv kernel: [305416.912706] sd 2:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
Mar 2 07:52:14 ksrv kernel: [305416.912713] Descriptor sense data with sense descriptors (in hex):
Mar 2 07:52:14 ksrv kernel: [305416.912717] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Mar 2 07:52:14 ksrv kernel: [305416.912732] 00 c2 a5 23
Mar 2 07:52:14 ksrv kernel: [305416.912738] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
Mar 2 07:52:14 ksrv kernel: [305416.912779] ata3: EH complete
Mar 2 07:52:14 ksrv kernel: [305417.067073] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors: (1.00 TB/931 GiB)
Mar 2 07:52:14 ksrv kernel: [305417.085548] sd 2:0:0:0: [sda] Write Protect is off
Mar 2 07:52:14 ksrv kernel: [305417.085627] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Mar 2 07:52:14 ksrv kernel: [305417.085692] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors: (1.00 TB/931 GiB)
Mar 2 07:52:14 ksrv kernel: [305417.085727] sd 2:0:0:0: [sda] Write Protect is off
Mar 2 07:52:14 ksrv kernel: [305417.085791] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

Что все это значит? Раньше такого не замечал.

M
На сайте с 01.12.2009
Offline
235
#1

Логи как логи.

Так какая проблема с хардом то ? =)

Вот почитайте.

/ru/forum/458197

Администратор Linux,Freebsd. построения крупных проектов.
N
На сайте с 06.05.2007
Offline
419
#2

ну вообще-то проблема чтения там была :


Mar 2 07:52:14 ksrv kernel: [305416.912738] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed

конечно нужно посмотреть smart и, если сервер арендованый, копировать данные и требовать замены hdd.

Кнопка вызова админа ()
M
На сайте с 01.12.2009
Offline
235
#3

Хм извиняюсь, что-то пол сообщение вашего(k0t) не до грузилось, обратил внимание.

Форум что то совсем тугой в последние время =)

--

Mar 2 07:52:14 ksrv kernel: [305416.912738] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
Mar 2 07:52:14 ksrv kernel: [305416.912779] ata3: EH complete
Mar 2 07:52:14 ksrv kernel: [305417.067073] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors: (1.00 TB/931 GiB)
Mar 2 07:52:14 ksrv kernel: [305417.085548] sd 2:0:0:0: [sda] Write Protect is off
Mar 2 07:52:14 ksrv kernel: [305417.085627] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Mar 2 07:52:14 ksrv kernel: [305417.085692] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors: (1.00 TB/931 GiB)
Mar 2 07:52:14 ksrv kernel: [305417.085727] sd 2:0:0:0: [sda] Write Protect is off
Mar 2 07:52:14 ksrv kernel: [305417.085791] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

---


Mar 2 07:52:14 ksrv kernel: [305417.085692] sd 2:0:0:0: [sda] 1953525168

Указывает по всей видимости, на битый сектор, это плохо винт может дать сбой.

---

Вот почитайте.

/ru/forum/458197

Проведите диагностику.

M
На сайте с 16.09.2009
Offline
278
#4
madoff:


Mar 2 07:52:14 ksrv kernel: [305417.085692] sd 2:0:0:0: [sda] 1953525168


Указывает по всей видимости, на битый сектор, это плохо винт может дать сбой.

:)

Это просто диагностическая информация по диску _в целом_ (дальше там

она прододолжается). Печатается, при инициализации, например.

Информация по проблеме _выше_ этого сообщения.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
M
На сайте с 01.12.2009
Offline
235
#5
myhand:
:)

Это просто диагностическая информация по диску _в целом_ (дальше там
она прододолжается). Печатается, при инициализации, например.
Информация по проблеме _выше_ этого сообщения.

Ошибка чтение

Mar 2 07:52:14 ksrv kernel: [305416.912738] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed

--

В секторе 1953525168

Mar 2 07:52:14 ksrv kernel: [305417.067073] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors: (1.00 TB/931 GiB)

--

Разве нет ?

M
На сайте с 16.09.2009
Offline
278
#6
madoff:
Разве нет ?

Нет.

Вторая строчка к какому-то конкретному сектору отношения не имеет. Там, кстати,

множественное число (sectors). Не насторожило?

PS: Подобную информацию о "сбойном секторе" Вы можете найти в любом dmesg

c SATA-дисками после перезагрузки.

Andreyka
На сайте с 19.02.2005
Offline
822
#7

Меняйте хард, не поможет - значит контроллер/мамка/бп

Не стоит плодить сущности без необходимости
k0t
На сайте с 13.07.2008
Offline
99
k0t
#8


root@ksrv:/home/k0t# smartctl -A /dev/sda2
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 096 096 006 Pre-fail Always - 193656381
3 Spin_Up_Time 0x0003 091 091 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 117
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 15
7 Seek_Error_Rate 0x000f 069 060 030 Pre-fail Always - 12912719028
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 8164
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 1
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 117
184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 017 017 000 Old_age Always - 83
188 Unknown_Attribute 0x0032 100 096 000 Old_age Always - 132
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 057 046 045 Old_age Always - 43 (Lifetime Min/Max 33/46)
194 Temperature_Celsius 0x0022 043 054 000 Old_age Always - 43 (0 17 0 0)
195 Hardware_ECC_Recovered 0x001a 025 012 000 Old_age Always - 193656381
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1999
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1999
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0


root@ksrv:/home/k0t# smartctl -r ioctl -i /dev/sda2
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

[inquiry: 12 00 00 00 24 00 ]
scsi_status=0x0, host_status=0x0, driver_status=0x0
info=0x0 duration=0 milliseconds resid=0
status=0x0
[ata pass-through(16): 85 08 0e 00 00 00 01 00 00 00 00 00 00 00 ec 00 ]
scsi_status=0x0, host_status=0x0, driver_status=0x0
info=0x0 duration=4 milliseconds resid=0
status=0x0
Detected SAT interface, switch to device type 'sat'

REPORT-IOCTL: DeviceFD=3 Command=IDENTIFY DEVICE
[ata pass-through(16): 85 08 0e 00 00 00 01 00 00 00 00 00 00 00 ec 00 ]
scsi_status=0x0, host_status=0x0, driver_status=0x0
info=0x0 duration=0 milliseconds resid=0
status=0x0
REPORT-IOCTL: DeviceFD=3 Command=IDENTIFY DEVICE returned 0
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.11
Device Model: ST31000340AS
Serial Number: 9QJ1TTFP
Firmware Version: SD15
User Capacity: 1*000*204*886*016 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Tue Mar 2 15:03:41 2010 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


REPORT-IOCTL: DeviceFD=3 Command=SMART STATUS
[ata pass-through(16): 85 06 2c 00 da 00 00 00 00 00 4f 00 c2 00 b0 00 ]
scsi_status=0x2, host_status=0x0, driver_status=0x8
info=0x1 duration=40 milliseconds resid=0
status=2: [desc] sense_key=0 asc=0 ascq=0
REPORT-IOCTL: DeviceFD=3 Command=SMART STATUS returned 0

REPORT-IOCTL: DeviceFD=3 Command=SMART STATUS CHECK
[ata pass-through(16): 85 06 2c 00 da 00 00 00 00 00 4f 00 c2 00 b0 00 ]
scsi_status=0x2, host_status=0x0, driver_status=0x8
info=0x1 duration=32 milliseconds resid=0
status=2: [desc] sense_key=0 asc=0 ascq=0
REPORT-IOCTL: DeviceFD=3 Command=SMART STATUS CHECK returned 0

REPORT-IOCTL: DeviceFD=3 Command=SMART READ ATTRIBUTE VALUES
[ata pass-through(16): 85 08 0e 00 d0 00 01 00 00 00 4f 00 c2 00 b0 00 ]
scsi_status=0x0, host_status=0x0, driver_status=0x0
info=0x0 duration=96 milliseconds resid=0
status=0x0
REPORT-IOCTL: DeviceFD=3 Command=SMART READ ATTRIBUTE VALUES returned 0

REPORT-IOCTL: DeviceFD=3 Command=SMART READ ATTRIBUTE THRESHOLDS
[ata pass-through(16): 85 08 0e 00 d1 00 01 00 01 00 4f 00 c2 00 b0 00 ]
scsi_status=0x0, host_status=0x0, driver_status=0x0
info=0x0 duration=4 milliseconds resid=0
status=0x0
REPORT-IOCTL: DeviceFD=3 Command=SMART READ ATTRIBUTE THRESHOLDS returned 0

Как то фиксится все это? Хард толком то и не работал, жалко выкидывать. :(

M
На сайте с 16.09.2009
Offline
278
#9
k0t:

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 15
190 Airflow_Temperature_Cel 0x0022 057 046 045 Old_age Always - 43 (Lifetime Min/Max 33/46)
194 Temperature_Celsius 0x0022 043 054 000 Old_age Always - 43 (0 17 0 0)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1999

Хотя у меня нет большой статистики по большим сегейтам (1Tb+) - может для них

настолько такое число Reallocated_Sector_Ct и Offline_Uncorrectable не слишком фатально.

Я бы обратил внимание на эти показатели. Хотя, диск работал не долго:

9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8164 

- температура может быть причиной проблем. У меня в округе на SATA-дисках выше 30

нигде нету.

M
На сайте с 01.12.2009
Offline
235
#10
myhand:
Нет.

Вторая строчка к какому-то конкретному сектору отношения не имеет. Там, кстати,
множественное число (sectors). Не насторожило?

PS: Подобную информацию о "сбойном секторе" Вы можете найти в любом dmesg
c SATA-дисками после перезагрузки.

Ну нет так нет.

re: k0t

--

Дождитесь надписей типа "I/O error" :)

--

И быстро, если успеете копируйте данные, и выкидывайте диск :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий