Изношенность диска

nezabor
На сайте с 19.07.2010
Offline
152
2954

ниже 2 диска из сервера насколько критична дальнейшая эксплуатация данного сервера или лучше переехать

root@s2 ~ # smartctl -A /dev/sda

smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 120 099 006 Pre-fail Always - 238621966
3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 12
5 Reallocated_Sector_Ct 0x0033 099 099 036 Pre-fail Always - 62
7 Seek_Error_Rate 0x000f 088 060 030 Pre-fail Always - 749011282
9 Power_On_Hours 0x0032 074 074 000 Old_age Always - 23117
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 11
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 4295033131
189 High_Fly_Writes 0x003a 001 001 000 Old_age Always - 353
190 Airflow_Temperature_Cel 0x0022 051 045 045 Old_age Always In_the_past 49 (Lifetime Min/Max 48/52)
194 Temperature_Celsius 0x0022 049 055 000 Old_age Always - 49 (0 20 0 0)
195 Hardware_ECC_Recovered 0x001a 041 022 000 Old_age Always - 238621966
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 279666795502147
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 447771922
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 912441799

root@s2 ~ # smartctl -A /dev/sdb
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 116 099 006 Pre-fail Always - 102677936
3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 12
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 4
7 Seek_Error_Rate 0x000f 088 060 030 Pre-fail Always - 707760469
9 Power_On_Hours 0x0032 074 074 000 Old_age Always - 23117
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 11
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 4295032838
189 High_Fly_Writes 0x003a 011 011 000 Old_age Always - 89
190 Airflow_Temperature_Cel 0x0022 052 046 045 Old_age Always - 48 (Lifetime Min/Max 46/51)
194 Temperature_Celsius 0x0022 048 054 000 Old_age Always - 48 (0 20 0 0)
195 Hardware_ECC_Recovered 0x001a 036 020 000 Old_age Always - 102677936
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 47579647728195
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 615063397
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 3672638922
Чудес не бывает...
Andreyka
На сайте с 19.02.2005
Offline
822
#1

Запустите тест и посмотрите

Не стоит плодить сущности без необходимости
nezabor
На сайте с 19.07.2010
Offline
152
#2
Andreyka:
Запустите тест и посмотрите

какой тест?

M
На сайте с 24.10.2011
Offline
173
#3

smartctl -t long

seocore
На сайте с 25.09.2006
Offline
143
#4
nezabor:
ниже 2 диска из сервера насколько критична дальнейшая эксплуатация данного сервера или лучше переехать

лучше переехать, так как на обеих дисках есть переназначенные сектора, на первом уже критично много (т.е. проблемы могут начаться довольно скоро), температурный режим работы дисков явно выходит за рамки, 49 градусов это уже перебор

Инструменты для веб-мастера: кластеризатор СЯ (https://goo.gl/MQWfqO), все запросы конкурента (https://goo.gl/hd5uHS), дешевые XML-лимиты (https://goo.gl/aDZbPI)
M
На сайте с 24.10.2011
Offline
173
#5

seocore, критично много - это когда в смарте будет написано FAILING NOW, а так обычное состояние дисков в хетцнере

nezabor
На сайте с 19.07.2010
Offline
152
#6
michaek:
smartctl -t long

а где результаты глянуть

smartctl -t long /dev/sda
smartctl -X /dev/sda

и вот куда все это записалось не понятно

M
На сайте с 24.10.2011
Offline
173
#7

nezabor, либо в smartctl -a, либо в smartctl -l selftest. это же все в man smartctl есть, неужели так сложно заглянуть?

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#8

Не забудьте рассказать что при запуске long да и вполне может быть и Short теста, есть высокая вероятность что сервер уйдет в точку, в том плане, что вскроются плохие места на винте... и если их будет достаточно - может сдохнуть сервер легко.

ТС, Что же касается вашей смарт информации...

Первое что мне бросается в глаза это не плохой аптайм серверов, так как при 23,117 часах наработки Power_On_Hours (~2.5 года) было всего 12 запусков Start_Stop_Count, а это говорит о среднем аптайме в ~80 дней :) Но это так....

Spin_Up_Time у вас в порядке, стало быть электронику можно считать рабочей :D

Reallocated_Sector_Ct - выглядит очень печально, особенно на первом винте, при этом отсутствуют Pending сектора, но все равно я бы рекомендовал незамедлительно менять оба винчестера, хотя писавшие ранее, предложили short,long тесты.... можно попробовать проверить и таким способом конечно, но надо быть готовым к замене "прямо сейчас".... Главное что бы показатели Reallocated_Sector_Ct не росли.... так как SMART это все таки не совсем отображение действительности :D (У меня есть винты у которых ГОДЫ этот показатель на одном месте но в количестве около 20.000 :) ) но он не двигался за год ни разу... стало быть термин "сыпется винт" отпадает.... если же количество растет .... 300% меняйте винты.

Airflow_Temperature_Cel - выглядит странновато , хотя я не знаю интенсивности работы ваших винтов... могут конечно и датчики сбоить но как по мне 49C для винтов это многовато, если они конечно не "шпарят на полную" по задумке....

Прошелся по паре своих серверов, показатель не выше 35, при этом есть Seagate, WD, Hitachi ;). Проверьте (если имеются) датчики температуры CPU / MB (для линукса можно поставить lmsensors) возможно имеет место общий перегрев вашего сервера.

Может быть я конечно параноик, но у себя меняю винты когда Reallocated_Sector_Ct или не дай бог Current_Pending_Sector >1 (или имеет рост), так что по моему личному мнению вам надо срочно менять винты, ибо уже 62 сектора на первом и 4 на втором были ремаплены, стало быть не могли быть прочитаны\записаны.....

Отдельно замечу, что на смарт теоретически может влиять и качество кабеля через который подключен диск.... а так же качество разъема на матери куда он включен, бывает всякое, но при появлении аналогичных данных стоит как минимум тестировать винты, а как максимум менять если у вас рейд и это зеркало.

P.S: делайте smartctl -a в следующий раз, ибо разные винты могут по разному SMART показывать, хотелось бы понимать модель, объем...

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
Z
На сайте с 06.09.2012
Offline
129
#9
Romka_Kharkov:
но как по мне 49C для винтов это многовато, если они конечно не "шпарят на полную" по задумке....

Нормально для десктопного корпуса без отдельного вентилятора для винтов.

Черный список врунов и обманщиков: ua-hosting.company, riaas.ru, takewyn.ru, yahoster/cadedic, Andreylab
Electronn
На сайте с 01.02.2010
Offline
91
#10

1. Температурное окно для работы надо смотреть в тех характеристиках на сайте производителя винтов. Если выходит за рамки - пишите в ДЦ / саппорт

2. Как говорили, нужно смотреть на интенсивность роста Reallocated_Sector_Ct и отличное от нуля и Reported_Uncorrect

3. В смарте есть три колонки VALUE WORST THRESH . VALUE - это текущий показатель . WORST - это наихудший зарегистрированный за все время работы диска. THRESH - это порог, ниже которого смерть винта может наступить в течение суток. Если Ваш нынешний или минимальный показатель ниже THRESH или равен ему - однозначная замена.

4. В smartmontools можно настроить отправку отчетов на почту в случае проблем - очень поможет. Также советую регулярно делать шорт и лонг тесты и смотреть dmesg на наличиие ошибок от ata1 , ata2

На время работы винта может не смотреть вообще, так как некоторое винты работают нормально месяцами и годами, а некоторые начинают сыпаться после первого запуска. Согласно проведенным Google исследованиям - шанс выхода из строя диска в первые 3 месяца выше, чем в среднем в дальнейшей эксплуатации.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий