проблемы с ssd на сервере

К
На сайте с 14.03.2004
Offline
201
1329

На сервере под базы данных стоит OCZ RevoDrive PCI-Express. Работает уже 1,5 года

Сегодня на сервере обнаружены возможные проблемы с дисками:


Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/18:38:f7:67:f3/03:00:78:00:00/40 tag 7 ncq 405504 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:40:af:ec:f5/04:00:78:00:00/40 tag 8 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:48:af:f0:f5/04:00:78:00:00/40 tag 9 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/e8:50:af:f4:f5/00:00:78:00:00/40 tag 10 ncq 118784 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:58:a7:f5:f5/04:00:78:00:00/40 tag 11 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:60:a7:f9:f5/04:00:78:00:00/40 tag 12 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:68:a7:fd:f5/04:00:78:00:00/40 tag 13 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:70:a7:01:f6/04:00:78:00:00/40 tag 14 ncq 524288 out
Apr 23 05:17:01 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:01 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:01 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:01 server1 kernel: ata6.00: cmd 61/00:78:a7:05:f6/04:00:78:00:00/40 tag 15 ncq 524288 out
Apr 23 05:17:02 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:02 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:02 server1 kernel: ata6.00: error: { UNC }
Apr 23 05:17:02 server1 kernel: ata6.00: cmd 61/00:80:a7:09:f6/04:00:78:00:00/40 tag 16 ncq 524288 out
Apr 23 05:17:02 server1 kernel: res 41/40:00:16:01:18/00:00:a4:00:00/40 Emask 0x9 (media error)
Apr 23 05:17:02 server1 kernel: ata6.00: status: { DRDY ERR }
Apr 23 05:17:02 server1 kernel: ata6.00: error: { UNC }


Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 172 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 174 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 177 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 181 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 182 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 233 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 234 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 241 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sdd, Failed SMART usage Attribute: 242 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 171 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 172 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 174 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 177 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 181 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 182 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 233 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 234 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 241 Unknown_Attribute.
Apr 23 08:03:43 server1 smartd[6499]: Device: /dev/sde, Failed SMART usage Attribute: 242 Unknown_Attribute.

Что посоветуете? Менять или еще поживет?

Интернет магазин православных икон Kiot.com.ua (http://kiot.com.ua) - для форумчан скидка (запрос в личку)
pupseg
На сайте с 14.05.2010
Offline
347
#1

забрать данные оттуда и fsck попробовать может?

Качественная помощь в обслуживании серверов. (/ru/forum/661100) Бесплатных консультаций не даю, не помогаю, не обучаю. Минималка от 100$. Как пропатчить KDE-просьба не спрашивать. Есть форумы (http://linux.org.ru) и полезные сайты (http://www.opennet.ru/).
N
На сайте с 06.05.2007
Offline
419
#2

Учитывая, что диска два, вероятно там raid1 и все пока работает.

Почему вы smartmontools не обновили с самого начала ? показали бы вывод smartctl. Было бы интересно увидеть сколько вы (или предыдущий владелец) на диск записали, что он так быстро накрылся. Старые версии не понимают новых атрибутов и поэтому пишут Unknown_Attribute.

Кнопка вызова админа ()
К
На сайте с 14.03.2004
Offline
201
#3
pupseg:
забрать данные оттуда и fsck попробовать может?

ок, попробуем

---------- Добавлено 23.04.2012 в 06:37 ----------

netwind:
Учитывая, что диска два, вероятно там raid1 и все пока работает.

Почему вы smartmontools не обновили с самого начала ? показали бы вывод smartctl. Было бы интересно увидеть сколько вы (или предыдущий владелец) на диск записали, что он так быстро накрылся. Старые версии не понимают новых атрибутов и поэтому пишут Unknown_Attribute.

да, верно raid1

Я не админ, а владелец... к сожалению.

Опыта в таких делах нет...

Диск новый...

Админу напишу пусть обновит smartmontools, действительно нужно знать

---------- Добавлено 23.04.2012 в 08:07 ----------

netwind:

Почему вы smartmontools не обновили с самого начала ? показали бы вывод smartctl. Было бы интересно увидеть сколько вы (или предыдущий владелец) на диск записали, что он так быстро накрылся. Старые версии не понимают новых атрибутов и поэтому пишут Unknown_Attribute.

Обновили smartmontools, вот результаты, может кто расшифрует что к чему?

=== START OF INFORMATION SECTION ===

Model Family: SandForce Driven SSDs
Device Model: OCZ-REVODRIVE
Serial Number: OCZ-UTP8NON0HS831R89
LU WWN Device Id: 5 e83a97 fac24b8c1
Firmware Version: 1.22
User Capacity: 40,018,599,936 bytes [40.0 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 6
Local Time is: Mon Apr 23 10:55:39 2012 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7f) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Abort Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 48) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 118 100 050 Pre-fail Always - 0/210449009
5 Retired_Block_Count 0x0033 100 100 003 Pre-fail Always - 0
9 Power_On_Hours_and_Msec 0x0032 100 100 000 Old_age Always - 12390h+15m+34.800s
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 23
171 Program_Fail_Count 0x0032 000 000 000 Old_age Always - 0
172 Erase_Fail_Count 0x0032 000 000 000 Old_age Always - 0
174 Unexpect_Power_Loss_Ct 0x0030 000 000 000 Old_age Offline - 15
177 Wear_Range_Delta 0x0000 000 000 000 Old_age Offline - 1
181 Program_Fail_Count 0x0032 000 000 000 Old_age Always - 0
182 Erase_Fail_Count 0x0032 000 000 000 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
194 Temperature_Celsius 0x0022 001 129 000 Old_age Always - 1 (0 127 0 129 0)
195 ECC_Uncorr_Error_Count 0x001c 118 100 000 Old_age Offline - 0/210449009
196 Reallocated_Event_Count 0x0033 100 100 000 Pre-fail Always - 0
231 SSD_Life_Left 0x0013 100 100 010 Pre-fail Always - 0
233 SandForce_Internal 0x0000 000 000 000 Old_age Offline - 1920
234 SandForce_Internal 0x0032 000 000 000 Old_age Always - 4544
241 Lifetime_Writes_GiB 0x0032 000 000 000 Old_age Always - 4544
242 Lifetime_Reads_GiB 0x0032 000 000 000 Old_age Always - 5696

SMART Error Log not supported
SMART Self-test Log not supported
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий