Попробуйте поменять диск как сбойный и оставить массив на 1 диске - Администрирование серверов

Развалился raid0

masterlan · 2014-02-17T23:46:53.0000000Z

Привет народ. Вобщем все было хорошо. Но в субботу вечерком оторвали от заслуженного отдыха - сервер тупит. На сервере сотовый raid1 , debian7 + proxmox ve и десяток виртуалок. Все было ок, но тут пришла беда. С трудом добрался по ssh на сервер, и обнаружил LA скачущий от 12 до 32 ( в обычном режиме, LA максимум поднимался до отметки "2") smart показал что оба винта система видит, а вот из рейда один из них вылетел. Добавил его обратно, и стал ждать пока он синхронизируется. Как оказалось ждать мне долго: root@pve:~# cat /proc/mdstat Personalities : [raid1] md0 : active raid1 sda1[2] sdb1[0] 471657280 blocks super 1.2 [2/1] [U_] [=====>...............] recovery = 26.4% (124706560/471657280) finish=2647.4min speed=2183K/sec unused devices: <none> По факту: load average: 2,75, 2,67, 2,84 IO: root@pve:~# iostat -xm 1 Linux 2.6.32-26-pve (pve) 18.02.2014 _x86_64_ (4 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0,85 0,57 0,51 20,48 0,00 77,59 Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 12,05 0,00 4,48 0,00 0,75 343,07 0,09 19,10 4,70 19,12 5,97 2,68 sdb 9,30 6,41 3,26 4,81 0,73 0,09 208,32 8,66 1073,18 355,94 1558,64 119,09 96,13 md0 0,00 0,00 1,05 11,15 0,01 0,09 17,00 0,00 0,00 0,00 0,00 0,00 0,00 ^C root@pve:~# Думается мне, восстановление идет оочень медленно. На сервере работают на данный момент всего 3-4 виртуалки, которые нагрузки почти не создают. В чем может быть трабл? По запросу вывод smartctl покажу.

K

172

kpv

18 февраля 2014, 20:33

#21

другой диск только на запись, башкой не дергает - в этом режиме (последовательная запись) он вплоть до 130 Мбайт в секунду может выдать.

---------- Добавлено 19.02.2014 в 00:41 ----------

Andreyka:
Наверное он не просто так вылетел.

Да не, нормально это всё - дедовщина на сервере в чистом виде.

Старичку(sda) подселили салагу(sdb), вот он и решил - чего это я должен пахать, мне уже на дембель пора и самоустранился из рейда.

Хостинг в Рестоне (http://ruweb.ws/?page=price), Москве (http://ruweb.net/?page=price&type=unlim), Нижнем Новгороде (http://ruweb-nn.ru/hosting.html). Регистрация доменов, аренда серверов с администрированием.

Кто пользуется hetzner.de? - Плодятся процессы httpd и Интересная проблема при реконструкции

M

208

masterlan

18 февраля 2014, 23:28

#22

На данный момент запущена синхронизация массива, будет ли уместен вывод iostat -dx 3 ?

Нет свободных падений с высот, Но зато есть свобода раскрыть парашют. Куплю BTC-E code за Privat24 UAH. icq: 698- 375- 092

E

178

evgeniymx

18 февраля 2014, 23:40

#23

Я не вижу, чтобы об этом говорили, но посмотрите на параметр avio второго скриншота /ru/forum/comment/12644779

Это огромное значение, даже для очень используемого диска. Менять срочно, без вариантов. Стучите в саппорт по поводу замены, объясните ситуацию - думаю, не мне вам рассказывать.

На время ожидания, будет не лишним пометить диск как сбойный и оставить работать массив на 1 диске при условии того, что саппорт заменит вам диск в течение хотябы 12 часов. или суток, если совсем все там плохо. Если диск будет помечен как сбойный, он не будет использоваться массивом и лишний раз нагружать систему, да и пропускной способности вам хватит для нормальной работы.

Большее ожидание становится автоматически опасным...

ua-hosting.com.ua: хостинг и серверы Кто пользуется hetzner.de? - Веб сервер и файлы

M

208

masterlan

18 февраля 2014, 23:43

#24

Отключил все возможные виртуалки. Вот

root@pve:~# iostat -dx 3
Linux 2.6.32-26-pve (pve) 19.02.2014 _x86_64_ (4 CPU)

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 15,42 0,01 4,96 0,20 1058,01 426,44 0,11 23,02 15,09 23,03 7,51 3,73
sdb 12,53 4,59 4,21 3,86 1036,36 69,25 274,11 7,16 887,64 358,45 1465,46 120,16 96,93
md0 0,00 0,00 0,71 8,33 9,89 69,19 17,49 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 0,00 0,00 1,67 0,00 661,50 793,80 0,07 54,60 0,00 54,60 15,40 2,57
sdb 8,33 0,00 0,67 0,00 85,33 0,00 256,00 5,76 1990,00 1990,00 0,00 1488,00 99,20
md0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
sdb 0,00 0,00 0,33 0,00 170,67 0,17 1025,00 4,52 4545,00 4545,00 0,00 3000,00 100,00
md0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 11,33 0,00 5,33 0,00 790,67 296,50 0,04 8,12 0,00 8,12 7,81 4,17
sdb 9,33 2,00 2,00 3,00 512,00 22,67 213,87 1,66 1784,40 3241,33 813,11 199,40 99,70
md0 0,00 0,00 0,00 4,67 0,00 22,67 9,71 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 88,00 0,00 14,67 0,00 6528,33 890,23 0,16 10,77 0,00 10,77 8,32 12,20
sdb 87,67 0,00 14,67 0,33 6528,00 0,17 870,42 4,40 154,53 141,43 731,00 66,64 99,97
md0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
sdb 0,00 0,00 1,00 0,00 512,00 0,17 1024,33 3,11 2696,33 2696,33 0,00 1000,00 100,00
md0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0,00 7,00 0,00 1,00 0,00 512,00 1024,00 0,00 4,33 0,00 4,33 2,33 0,23
sdb 0,00 0,00 0,00 0,33 0,00 0,00 0,00 2,00 4760,00 0,00 4760,00 3000,00 100,00
md0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

^C
root@pve:~#

K

172

kpv

19 февраля 2014, 06:51

#25

Примерное время ребилда сколько осталось?

Если много, то:

1. Отправить сервер в ребут с выключением питания. Может у контроллера крыша поехала - самый простой способ вырубить сервер по питанию. Есть риск большой, что не стартанёт и застрянет при загрузке, поэтому лучше делать при наличии квм и живых рук рядом.

2. Попробовать шлейф поменять и в другой sata порт воткнуть. Если скорость не поменяется, то значит железо подыхает. Вынимаем диски в другой (подменный) сервер - если картина повторяется, значит винт.

Google ответил на ряд Редизайн почтового сервиса Mail@Ru В Яндексе рассказали, как

M

208

masterlan

19 февраля 2014, 10:18

#26

kpv:
Примерное время ребилда сколько осталось?
Если много, то:

1. Отправить сервер в ребут с выключением питания. Может у контроллера крыша поехала - самый простой способ вырубить сервер по питанию. Есть риск большой, что не стартанёт и застрянет при загрузке, поэтому лучше делать при наличии квм и живых рук рядом.
2. Попробовать шлейф поменять и в другой sata порт воткнуть. Если скорость не поменяется, то значит железо подыхает. Вынимаем диски в другой (подменный) сервер - если картина повторяется, значит винт.

Уже почти не много:

Personalities : [raid1]
md0 : active raid1 sda1[2] sdb1[0]
471657280 blocks super 1.2 [2/1] [U_]
[=============>.......] recovery = 67.1% (316661632/471657280) finish=2271.4min speed=1137K/sec

надеюсь к пятнице закончит)

1. Ребутить сервер, во время синхронизации.. В лучшем случае синхронизация начнется с начала, а в худшем - потеря работающей (хоть как-то) системы.

Так?

2. Есть маааленькая вероятность того что может sata шлейф отошел, но.... сами понимаете.

Да и с подменным сервером трабл - разве что брать с собой материнку с процем и гонять по месту )

Ждать окончания ребилда т.к. винт на котором живет система, и с которого идет синхронизация - под вопросом.

Мобильный Яндекс.Браузер появится в Microsoft официально выпустил новый WhatsApp тестирует одновременное использование

K

172

kpv

19 февраля 2014, 10:39

#27

masterlan:
Уже почти не много:
Так?

Да. Но риск того, что к пятнице ребилд не закончится, а если и закончится, то результат будет плачевным примерно на том же уровне.

2. Да и с подменным сервером трабл

А этот вопрос всё равно надо решать, иначе, в худшем варианте, два раза придётся ездить.

Для проверки можно с собой такую приблуду взять

http://www.nix.ru/autocatalog/hdd_accessories_agestar/AgeStar_FUBCA_SATAUSB2.0_Adapter_SATA_3.5_USB._87103.html

Нет, вы только полюбуйтесь! проблемы в Я????????? Как сравнивать доходность AdSense

M

208

masterlan

1 марта 2014, 11:44

#28

Всем спасибо за советы. После того как синхронизировался рейд, обесточили машину (на случай если сата коньроллер глюк поймал, его попустило) и заменили сата шлейф. После старта рейд синхронизировался и машина работает в норме.

485

Romka_Kharkov

1 марта 2014, 13:41

#29

WapGraf:
Glueon, можно, но это опасно.

А в чем заключается опасность можно поинтересоваться?

Вижу только псевдо-причину, когда в следствии повышения скорости может подохнуть оставшийся винт... так как они обычно из одной серии\партии\куплены одновременно\ и.т.п в остальных случаях на сколько я понимаю максиммум ребилд будет прерван.... или... ???

---------- Добавлено 01.03.2014 в 17:42 ----------

WapGraf:

masterlan, контроллер? Так это софтовый рейд, а не хардварный или мы друг-друга не поняли?

ТАм же "cat /proc/mdstat" ... какой нафик контроллер :D ???? :))))))

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)

Замена вышедшего из строя flush на сервере Помогите расшифровать ответ техподдержки

[Удален]

1 марта 2014, 13:45

#30

Romka_Kharkov:
Вижу только псевдо-причину, когда в следствии повышения скорости может подохнуть оставшийся винт... так как они обычно из одной серии\партии\куплены одновременно\ и.т.п в остальных случаях на сколько я понимаю максиммум ребилд будет прерван.... или... ???

Я бы не называл это псевдо-причиной, довольно частое явление.

Но да, именно это и имелось ввиду.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, если ваша email-рассылка попала в спам

Развалился raid0