За баговый чипсет 5500 и сетевуху 82574L делите цену еще на 3 :)
Проклинаю чипсет intel 5500 в конфиге 2xCPU 😡
/ru/forum/comment/11449939
http://communities.intel.com/thread/19547
В блоге Kristian Kielhofner вроде написано (http://blog.krisk.org/2013/02/packets-of-death.html):
От себя добавлю, что серваки уже начали бомбить (зла нехватает).
Supermicro лучше, особенно после танцов с бубном вокруг платы
s5500bc от Intel (http://communities.intel.com/thread/19547) и мата
по всему гуглу :)
Я просто настроил smartmontools и жду от него адекватных уведомлений о проблемах, но на практике он оказывается бесполезен. Диск нормально работает
даже с большим Reallocated_Sector_Ct.
Дискам свойственно ломаться так быстро, что S.M.A.R.T. просто не успевает отобразить его изменившееся состояние.
Инженеры сигейта рассчитывают на физические поломки и этим можно объяснить отсутствие ошибок.
Рост Reallocated_Sector_Ct начался уже после начала ежедневных тестирований, но ошибок не было.
Непонятно как можно делать далеко идущие выводы незная полного вывода.
Там все тесты за последний год успешны.
Совсем глупо ничего не делать и верить только смарту.
SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 114 099 006 Pre-fail Always - 61107873 3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 47 5 Reallocated_Sector_Ct 0x0033 087 087 036 Pre-fail Always - 541 7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always - 52665104 9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 8911 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 47 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 099 000 Old_age Always - 24 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 076 052 045 Old_age Always - 24 (Min/Max 22/37) 194 Temperature_Celsius 0x0022 024 048 000 Old_age Always - 24 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 018 016 000 Old_age Always - 61107873 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 131550553318176 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 126491491 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 78508314 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 8892 - # 2 Short offline Completed without error 00% 8868 - # 3 Short offline Completed without error 00% 8844 - # 4 Extended offline Completed without error 00% 8826 - # 5 Short offline Completed without error 00% 8820 - # 6 Short offline Completed without error 00% 8796 - # 7 Short offline Completed without error 00% 8772 - # 8 Short offline Completed without error 00% 8748 - # 9 Short offline Completed without error 00% 8724 - #10 Short offline Completed without error 00% 8700 - #11 Short offline Completed without error 00% 8676 - #12 Extended offline Completed without error 00% 8658 - #13 Short offline Completed without error 00% 8652 - #14 Short offline Completed without error 00% 8628 - #15 Short offline Completed without error 00% 8604 - #16 Short offline Completed without error 00% 8580 - #17 Short offline Completed without error 00% 8556 - #18 Short offline Completed without error 00% 8532 - #19 Short offline Completed without error 00% 8508 - #20 Extended offline Completed without error 00% 8490 - #21 Short offline Completed without error 00% 8484 -
Притом, что нужно принять решение о смене диска.
Для этого нужно собрать больше информации.
Если бы это не срабатывало то зачем мне было бы это делать?
Если хочешь жить в хетцнере то и не так раскорячишься.
ДЦ в Москве тоже пострадал, московский трафик все еще
ходит через Питер:
1. CCXVII.CXCIX.CCVIII.CCXLV.quickline.ru
2. 178.18.224.42.spb.peering.dataix.ru
3. ae0.brz-rtr.selectel.ru
Обсуждение еще тут http://habrahabr.ru/post/152117/
Сорри что запутал фразой, на самом деле я про измерение времени создания новых блоков на диске.
Смарт тесты на том диске делаются каждый день.
Пока для себя написал скрипт который измеряет это все ночью (при отсутствии нагрузки) и подает сигнал если стало выше среднего.
Непонятно зачем вообще нужен этот смарт если толку
от него нет.
Reallocated_Sector_Ct 0x0033 087 087 036 Pre-fail Always - 541
SMART overall-health self-assessment test result: PASSED
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 8868 -
# 2 Short offline Completed without error 00% 8844 -
# 3 Extended offline Completed without error 00% 8826 -
Диск ST31000524AS 1 TB
Любая утилита измеряющая время доступа и резервирования блоков
скажет больше.