сильно вырос load average до 6-8, всегда был 1-2

Димитрий
На сайте с 20.01.2007
Offline
137
#31

smartctl -A /dev/sda

smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x000f 099 095 051 Pre-fail Always - 477

3 Spin_Up_Time 0x0007 082 082 011 Pre-fail Always - 6340

4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 6

5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0

7 Seek_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0

8 Seek_Time_Performance 0x0025 094 094 015 Pre-fail Offline - 16967

9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 17127

10 Spin_Retry_Count 0x0033 100 100 051 Pre-fail Always - 0

11 Calibration_Retry_Count 0x0012 100 100 000 Old_age Always - 1

12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 6

13 Read_Soft_Error_Rate 0x000e 099 095 000 Old_age Always - 476

183 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

184 Unknown_Attribute 0x0033 100 100 000 Pre-fail Always - 0

187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 5586

188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

190 Airflow_Temperature_Cel 0x0022 066 063 000 Old_age Always - 34 (Lifetime Min/Max 33/37)

194 Temperature_Celsius 0x0022 066 062 000 Old_age Always - 34 (Lifetime Min/Max 33/38)

195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 433677178

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0

197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 5

198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0

199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0

200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0

201 Soft_Read_Error_Rate 0x000a 099 099 000 Old_age Always - 47

smartctl -A /dev/sdb

smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 10

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x000f 111 100 006 Pre-fail Always - 38534742

3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0

4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 5

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0

7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always - 36531623

9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 442

10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0

12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 5

183 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0

187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0

188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0

189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0

190 Airflow_Temperature_Cel 0x0022 062 053 045 Old_age Always - 38 (Lifetime Min/Max 21/39)

194 Temperature_Celsius 0x0022 038 047 000 Old_age Always - 38 (0 21 0 0)

195 Hardware_ECC_Recovered 0x001a 030 029 000 Old_age Always - 38534742

197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0

198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0

199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0

240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 62517543961027

241 Unknown_Attribute 0x0000 100 253 000 Old_age Offline - 213644770

242 Unknown_Attribute 0x0000 100 253 000 Old_age Offline - 36681593

Разума и осознания! Личный сайт- грани мироздания, психология и всё такое (https://geval.ru)
N
На сайте с 06.05.2007
Offline
419
#32

С такими параметрами в обмене диска sda вам могут и отказать, но исходя их остальных сообщений об ошибках кабель проверить обязаны.

Вместо smartctl -A лучше указывать -a. Так будет больше информации. При диагностике по форуму никакая информация не лишняя.

Кнопка вызова админа ()
P
На сайте с 10.11.2010
Offline
27
#33

Диск sda в норме, а вот sdb, несмотря на то, что он абсолютно новый, показывает ошибки чтения и позиционирования. Дело либо в кабеле, либо диск изначально бракованный. Также есть вероятность, что диск подвержен чрезмерным вибрациям/резонансам, что влияет на позиционирование.

Login.by (http://login.by/) — хостинг в Беларуси
M
На сайте с 16.09.2009
Offline
278
#34
bsyomov:
И что, вы хотели этим сказать?

То, что стоит других читать, чтобы не повторять советы в десятый раз.

bsyomov:
Через сообщение вы советуете ровно то же

И читать научиться сперва.

bsyomov:
Да, и в какой это версии CentOS при проверке массива вместо check пишется recovery вдруг?

Что-то до 2.6.19 ядра было (хз когда этот патч включили в CentOS). Может rsync, вместо recovery, но точно не check.

Димитрий:
smartctl -A /dev/sda
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 5
201 Soft_Read_Error_Rate 0x000a 099 099 000 Old_age Always - 47

Нормальные диски. Последняя строчка - говорит в пользу плохого кабеля.

Petabyte:
Диск sda в норме, а вот sdb, несмотря на то, что он абсолютно новый, показывает ошибки чтения и позиционирования.

Ох, телепаты...

Petabyte:
Также есть вероятность, что диск подвержен чрезмерным вибрациям/резонансам, что влияет на позиционирование.

Есть "вероятность", а есть 100% уверенность, что это просто разные модели дисков, которые отображают SMART-данные по-разному. Вот то что кажет один из них - вас и напугало с непривычки.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
Димитрий
На сайте с 20.01.2007
Offline
137
#35

заменили кабель , потом в режиме recsue видимо запустили синхронизацию дисков и все заработало, теперь все нормально

---------- Добавлено 06.03.2012 в 02:13 ----------

правда теперь при запуске

команды smartctl -A /dev/sdb

smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

Smartctl open device: /dev/sdb failed: No such file or directory

---------- Добавлено 06.03.2012 в 02:15 ----------

и такая еще штука..

cat /proc/mdstat

Personalities : [raid1] [raid10] [raid0] [raid6] [raid5] [raid4]

md0 : active raid1 sda1[0]

4200896 blocks [2/1] [U_]

md1 : active raid1 sda2[0]

2104448 blocks [2/1] [U_]

md2 : active raid1 sda3[0]

726266432 blocks [2/1] [U_]

получается отключили что ли чего-то?

N
На сайте с 06.05.2007
Offline
419
#36

Димитрий, видимо, диск стал называться sdc, sde,sdf или как там еще принято в centos. Раз md сам не собрался, то ничего они не запускали.

Нужно узнать куда что подключено теперь и дать команду на синхронизацию.

Димитрий
На сайте с 20.01.2007
Offline
137
#37

рано радовался..это просто они только один кабель поменяли..потом еще поменяли другой..в итоге опять пошел ресинк и опять по кругу..

Mar 6 07:31:58 nebo-7 kernel: raid1: sda: unrecoverable I/O read error for block 635909760

Mar 6 08:17:27 nebo-7 smartd[4222]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

походу на эом месте идет обрыв и всё по новой..

из хостинга написали что будут первый винт менять, но подождут ресинк..хотя как его ждать, если он идет уже по второму кругу..

страшные предчуствия терзают меня, что если такие ошибки- как диск тогда скопировать основной?

может можно как-то вылечить чтобы была возможность скопировать, а то идет по кругу и всё..

Димитрий
На сайте с 20.01.2007
Offline
137
#38

в общем, написали что первый винт надо менять по любому, так как ошибки чтения имеются, и не факт что полный бэкап возможен..

вот интересно, можно ли как-то сделать в centOS чтобы при ошибке чтения все равно шло дальше, пропуская глючный момент, и записывая в логи- вот такой то файл коряв..тогда можно было бы восстановить это руками

Andreyka
На сайте с 19.02.2005
Offline
822
#39

Можно сделать так, чтоб когда диск начинает сдыхать - приходило сообщение на email.

Не стоит плодить сущности без необходимости
M
На сайте с 16.09.2009
Offline
278
#40
Димитрий:
в общем, написали что первый винт надо менять по любому, так как ошибки чтения имеются, и не факт что полный бэкап возможен..

У вас же был нормальный диск. Судя по первым примерам логов и вывод /proc/mdstat - ошибки сыпались с того диска, на который шел ребилд (тогда это был sda). Если ну уж очень хочется бекап сделать - ну и выньте сбойный диск из райд, затем *запишите* на него бекап (ошибок чтения не будет - сектора уйдут в ремап или "починятся"). Дальше - вынимайте сбойный диск и замените его новым.

Видимо бравые хлопцы запустили вам ребилд со сбойным диском в качестве основного, оттуда и ошибки чтения.

Димитрий:
вот интересно, можно ли как-то сделать в centOS чтобы при ошибке чтения все равно шло дальше, пропуская глючный момент, и записывая в логи- вот такой то файл коряв..

Все можно, но не вам, извините. Учиться треба, а вы пока умения делать сие не показали. Но если ну очень интересно: http://smartmontools.sourceforge.net/badblockhowto.html

Вообще, чего вы хотите от местных админов? Набираться "мудрости" и давать потом ЦУ сотрудникам ДЦ, которые выполняют ваши задачи? От таких советов вам в итоге будет только хуже - хорошо, когда вы выполняете работу самостоятельно либо не мешаетесь под ногами у тех, кто все делает.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий