сильно вырос load average до 6-8, всегда был 1-2

Димитрий
На сайте с 20.01.2007
Offline
137
#11

странная ерунда сейчас опять проверил получилось что ли по новой все началось и времени еще больше ждать до синхронизации..

Personalities : [raid1] [raid10] [raid0] [raid6] [raid5] [raid4]

md0 : active raid1 sdb1[1] sda1[0]

4200896 blocks [2/2] [UU]

resync=DELAYED

md1 : active raid1 sdb2[1] sda2[0]

2104448 blocks [2/2] [UU]

md2 : active raid1 sdb3[2] sda3[0]

726266432 blocks [2/1] [U_]

[>....................] recovery = 1.9% (14374208/726266432) finish=26932.5min speed=439K/sec

прибил tar, скорость сразу возросла в три раза, но всё равно медленно..

в тех.поддержке хостинга ( hetzner) диски проверили говорят в норме- написали мол можем в режиме rescue быстро синхронизировать, на надо вебсервер остановить и ищите процессы какие тормозят диск..

по крайней мере LA снизился до 5

---------- Добавлено 05.03.2012 в 06:57 ----------

в общем все прояснилось, был еще одновременно запущен pbackup, процесс резервного копирования через ispmanager, как только его остановил, скорость резко выросла и пишет до синхронизации уже 6 часов..

видимо как-то совпало по времени что ресинк и рез.копирование начались одновременно

---------- Добавлено 05.03.2012 в 06:58 ----------

LA сразу же упал до 3

Разума и осознания! Личный сайт- грани мироздания, психология и всё такое (https://geval.ru)
N
На сайте с 06.05.2007
Offline
419
#12
snkua:
Софтовый рейд каждое первое воскресенье месяца чекается, по крайней мере в Дебиане, в RHEL-based, думаю примерно так же.

Не, в RHEL в 4 раза корпоративнее - раз в неделю.

Но во время этой проверки массива надпись check, а у ТС recovery.

сервер в таком режиме уже работает больше года и всё нормально.
top - 17:46:15 up 17 days,

раз перегружали недавно, значит что-то не нормально ?

Ну pbackup это ж простейший скрипт. Нет приоритетов, нет инкрементного копирования, вымывает кеш файлов из памяти. Чего еще ожидать.

Кнопка вызова админа ()
M
На сайте с 16.09.2009
Offline
278
#13
Димитрий:
кабы знал еще как это сделать)
а зачем вообще этот процесс- и как он сам запустился?

то что так медленно- это может значить что там сбой какой-то?

Возможно, просто периодическая проверка массивов. Смотрите логи, там все должно быть понятным: как, что и почему.

netwind:
Но во время этой проверки массива надпись check, а у ТС recovery.

не помню, пишет-ли в centos /proc/mdstat что идет именно check.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
bsyomov
На сайте с 25.01.2012
Offline
31
#14
726266432 blocks [2/1] [U_]
[>....................] recovery

Это не проверка, это ресинхронизация после ошибки. У вас только одна из копий заркала жива. - [U_]

Посмотрите, что в smart, посмотрите логи. Может одному из дисков пора на покой?

не помню, пишет-ли в centos /proc/mdstat что идет именно check.

Это не зависит от centos, и да пишет.

M
На сайте с 16.09.2009
Offline
278
#15
bsyomov:
Посмотрите, что в smart, посмотрите логи.

Ага. Посмотрите тред... Может хватит уже предлагать "смотреть логи"?

bsyomov:
Это не зависит от centos

Это зависит от версии centos, как минимум.

Димитрий
На сайте с 20.01.2007
Offline
137
#16

в общем по кругу продолжает идти проверка- хоть уже и быстро..но всё идет и идёт..

cat /proc/mdstat

Personalities : [raid1] [raid10] [raid0] [raid6] [raid5] [raid4]

md0 : active raid1 sdb1[1] sda1[0]

4200896 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]

2104448 blocks [2/2] [UU]

md2 : active raid1 sdb3[2] sda3[0]

726266432 blocks [2/1] [U_]

[======>..............] recovery = 30.7% (223085184/726266432) finish=185.1min speed=45296K/sec

---------- Добавлено 05.03.2012 в 18:31 ----------

netwind:
Не, в RHEL в 4 раза корпоративнее - раз в неделю.
Но во время этой проверки массива надпись check, а у ТС recovery.


раз перегружали недавно, значит что-то не нормально ?

Ну pbackup это ж простейший скрипт. Нет приоритетов, нет инкрементного копирования, вымывает кеш файлов из памяти. Чего еще ожидать.

да эта перезагрузка была после полутора лет работы, кажется это была перезагрузка после обновления системы и там еще в php добавляли пару модулей кажись, что то такое

---------- Добавлено 05.03.2012 в 18:39 ----------

а где смотреть логи- чтобы узнать что не так при этом ресинке и где по новой оно начинается?

M
На сайте с 16.09.2009
Offline
278
#17
Димитрий:
в общем по кругу продолжает идти проверка- хоть уже и быстро..но всё идет и идёт..

По которому кругу? Вы убедились, как вам советовали (логи!), что это именно *проверка*, а не восстановление raid?

Димитрий:
а где смотреть логи- чтобы узнать что не так при этом ресинке и где по новой оно начинается?

/var/log/syslog, /var/log/messages

Особенно интересны сообщения от ядра с префиксом md:. Если это регулярная проверка - cron должен записать в лог, что запустил скрипт raid-check (как-то так называется).

Димитрий
На сайте с 20.01.2007
Offline
137
#18

/var/log/messages

Mar 5 15:54:48 nebo-7 kernel: disk 0, wo:0, o:1, dev:sda3

Mar 5 15:54:48 nebo-7 kernel: disk 1, wo:1, o:1, dev:sdb3

Mar 5 15:54:48 nebo-7 kernel: md: syncing RAID array md2

Mar 5 15:54:48 nebo-7 kernel: md: minimum _guaranteed_ reconstruction speed: 1000 KB/sec/disc.

Mar 5 15:54:49 nebo-7 kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reconstruction.

Mar 5 15:54:49 nebo-7 kernel: md: using 128k window, over a total of 726266432 blocks.

Mar 5 16:00:09 nebo-7 smartd[3217]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

Mar 5 16:01:02 nebo-7 rotated[26311]: Rotation finished. 0 log files was processed. 0 seconds left

Mar 5 16:30:12 nebo-7 smartd[3217]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

Mar 5 17:00:09 nebo-7 smartd[3217]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

Mar 5 17:00:51 nebo-7 kernel: ata1.00: exception Emask 0x0 SAct 0x7fffffff SErr 0x0 action 0x0

Mar 5 17:00:51 nebo-7 kernel: ata1.00: irq_stat 0x40000008

Mar 5 17:00:51 nebo-7 kernel: ata1.00: cmd 60/80:20:d1:bf:b8/00:00:12:00:00/40 tag 4 ncq 65536 in

Mar 5 17:00:51 nebo-7 kernel: res 41/40:79:d8:bf:b8/bc:00:12:00:00/40 Emask 0x409 (media error) <F>

Mar 5 17:00:51 nebo-7 kernel: ata1.00: status: { DRDY ERR }

Mar 5 17:00:51 nebo-7 kernel: ata1.00: error: { UNC }

Mar 5 17:00:51 nebo-7 kernel: ata1.00: configured for UDMA/133

Mar 5 17:00:51 nebo-7 kernel: ata1: EH complete

Mar 5 17:00:52 nebo-7 kernel: ata1.00: exception Emask 0x0 SAct 0x7fffffff SErr 0x0 action 0x0

Mar 5 17:00:52 nebo-7 kernel: ata1.00: irq_stat 0x40000008

Mar 5 17:00:52 nebo-7 kernel: ata1.00: cmd 60/80:d0:d1:bf:b8/00:00:12:00:00/40 tag 26 ncq 65536 in

Mar 5 17:00:52 nebo-7 kernel: res 41/40:79:d8:bf:b8/bc:00:12:00:00/40 Emask 0x409 (media error) <F>

Mar 5 17:00:52 nebo-7 kernel: ata1.00: status: { DRDY ERR }

Mar 5 17:00:54 nebo-7 kernel: ata1.00: error: { UNC }

Mar 5 17:00:54 nebo-7 kernel: ata1.00: configured for UDMA/133

Mar 5 17:00:55 nebo-7 kernel: ata1: EH complete

Mar 5 17:00:55 nebo-7 kernel: ata1.00: exception Emask 0x0 SAct 0x7fffffff SErr 0x0 action 0x0

Mar 5 17:00:55 nebo-7 kernel: ata1.00: irq_stat 0x40000008

Mar 5 17:00:55 nebo-7 kernel: ata1.00: cmd 60/80:20:d1:bf:b8/00:00:12:00:00/40 tag 4 ncq 65536 in

Mar 5 17:00:55 nebo-7 kernel: res 41/40:79:d8:bf:b8/bc:00:12:00:00/40 Emask 0x409 (media error) <F>

Mar 5 17:00:55 nebo-7 kernel: ata1.00: status: { DRDY ERR }

Mar 5 17:00:55 nebo-7 kernel: ata1.00: error: { UNC }

Mar 5 17:00:55 nebo-7 kernel: ata1.00: configured for UDMA/133

Mar 5 17:00:55 nebo-7 kernel: ata1: EH complete

Mar 5 17:00:55 nebo-7 kernel: SCSI device sda: 1465149168 512-byte hdwr sectors (750156 MB)

Mar 5 17:00:55 nebo-7 kernel: sda: Write Protect is off

Mar 5 17:00:55 nebo-7 kernel: SCSI device sda: drive cache: write back

Mar 5 17:00:55 nebo-7 kernel: SCSI device sda: 1465149168 512-byte hdwr sectors (750156 MB)

Mar 5 17:00:55 nebo-7 kernel: sda: Write Protect is off

Mar 5 17:00:55 nebo-7 kernel: SCSI device sda: drive cache: write back

Mar 5 17:01:01 nebo-7 rotated[20425]: Rotation finished. 0 log files was processed. 0 seconds left

Mar 5 17:30:09 nebo-7 smartd[3217]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

Mar 5 18:00:09 nebo-7 smartd[3217]: Device: /dev/sda, 5 Currently unreadable (pending) sectors

Mar 5 18:01:02 nebo-7 rotated[9315]: Rotation finished. 0 log files was processed. 0 seconds left

Andreyka
На сайте с 19.02.2005
Offline
822
#19

Диск сдох. Срочно делайте бекапы.

Не стоит плодить сущности без необходимости
N
На сайте с 06.05.2007
Offline
419
#20
Димитрий:
Mar 5 17:00:51 nebo-7 kernel: res 41/40:79:d8:bf:b8/bc:00:12:00:00/40 Emask 0x409 (media error) <F>
Mar 5 17:00:55 nebo-7 kernel: res 41/40:79:d8:bf:b8/bc:00:12:00:00/40 Emask 0x409 (media error) <F>

вот это совсем не хорошо. или диск мрет или некачественный кабель sata.

посмотрите файлы за другие дни. возможно, там уже были ошибки на винтах и именно они вызвали перестроение raid.

что ж вы smart не стали смотреть? такие ошибки скорее всего зафиксированы и в smart тоже. там у винта есть собственный лог ошибок.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий