Devd

Рейтинг
109
Регистрация
18.10.2011
Должность
Частный предприниматель
Интересы
Разработка и управление highload интернет-проектами
Работал в Mail.Ru Group (май 2007 - октябрь 2011), сейчас занимаюсь собственными проектами. Эксперт по водяному охлаждению.

За баговый чипсет 5500 и сетевуху 82574L делите цену еще на 3 :)

Проклинаю чипсет intel 5500 в конфиге 2xCPU 😡

/ru/forum/comment/11449939

http://communities.intel.com/thread/19547

В блоге Kristian Kielhofner вроде написано (http://blog.krisk.org/2013/02/packets-of-death.html):

I was able to get in touch with two engineers at Intel and send them a demo unit to reproduce the issue. After working with them for a couple of weeks they determined there was an issue with the EEPROM on our 82574L controllers.

От себя добавлю, что серваки уже начали бомбить (зла нехватает).

Supermicro лучше, особенно после танцов с бубном вокруг платы

s5500bc от Intel (http://communities.intel.com/thread/19547) и мата

по всему гуглу :)

Как я понимаю, мониторить смарт-параметры вы не догадались

Я просто настроил smartmontools и жду от него адекватных уведомлений о проблемах, но на практике он оказывается бесполезен. Диск нормально работает

даже с большим Reallocated_Sector_Ct.

Дискам свойственно ломаться так быстро, что S.M.A.R.T. просто не успевает отобразить его изменившееся состояние.

Инженеры сигейта рассчитывают на физические поломки и этим можно объяснить отсутствие ошибок.

Рост Reallocated_Sector_Ct начался уже после начала ежедневных тестирований, но ошибок не было.

Вы удивились почему в вас в трех последних тестах (а фактически в одном - long) не было ошибок. Вам объяснили выше. Все еще непонятно?

Непонятно как можно делать далеко идущие выводы незная полного вывода.

Там все тесты за последний год успешны.

Люди разные глупости делают, лично я этому не удивляюсь.

Совсем глупо ничего не делать и верить только смарту.


SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 114 099 006 Pre-fail Always - 61107873
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 47
5 Reallocated_Sector_Ct 0x0033 087 087 036 Pre-fail Always - 541
7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always - 52665104
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 8911
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 47
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 24
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 076 052 045 Old_age Always - 24 (Min/Max 22/37)
194 Temperature_Celsius 0x0022 024 048 000 Old_age Always - 24 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 018 016 000 Old_age Always - 61107873
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 131550553318176
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 126491491
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 78508314

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 8892 -
# 2 Short offline Completed without error 00% 8868 -
# 3 Short offline Completed without error 00% 8844 -
# 4 Extended offline Completed without error 00% 8826 -
# 5 Short offline Completed without error 00% 8820 -
# 6 Short offline Completed without error 00% 8796 -
# 7 Short offline Completed without error 00% 8772 -
# 8 Short offline Completed without error 00% 8748 -
# 9 Short offline Completed without error 00% 8724 -
#10 Short offline Completed without error 00% 8700 -
#11 Short offline Completed without error 00% 8676 -
#12 Extended offline Completed without error 00% 8658 -
#13 Short offline Completed without error 00% 8652 -
#14 Short offline Completed without error 00% 8628 -
#15 Short offline Completed without error 00% 8604 -
#16 Short offline Completed without error 00% 8580 -
#17 Short offline Completed without error 00% 8556 -
#18 Short offline Completed without error 00% 8532 -
#19 Short offline Completed without error 00% 8508 -
#20 Extended offline Completed without error 00% 8490 -
#21 Short offline Completed without error 00% 8484 -
А тут-то причем смарт?

Притом, что нужно принять решение о смене диска.

Для этого нужно собрать больше информации.

Круто, конечно. Только вот результат измерения будет больше похож на шум

Если бы это не срабатывало то зачем мне было бы это делать?

Если хочешь жить в хетцнере то и не так раскорячишься.

ДЦ в Москве тоже пострадал, московский трафик все еще

ходит через Питер:

1. CCXVII.CXCIX.CCVIII.CCXLV.quickline.ru

2. 178.18.224.42.spb.peering.dataix.ru

3. ae0.brz-rtr.selectel.ru

Обсуждение еще тут http://habrahabr.ru/post/152117/

Сорри что запутал фразой, на самом деле я про измерение времени создания новых блоков на диске.

Смарт тесты на том диске делаются каждый день.

Пока для себя написал скрипт который измеряет это все ночью (при отсутствии нагрузки) и подает сигнал если стало выше среднего.

Непонятно зачем вообще нужен этот смарт если толку

от него нет.

Reallocated_Sector_Ct 0x0033 087 087 036 Pre-fail Always - 541

SMART overall-health self-assessment test result: PASSED

SMART Self-test log structure revision number 1

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

# 1 Short offline Completed without error 00% 8868 -

# 2 Short offline Completed without error 00% 8844 -

# 3 Extended offline Completed without error 00% 8826 -

Диск ST31000524AS 1 TB

Любая утилита измеряющая время доступа и резервирования блоков

скажет больше.

Всего: 86