xen-нода падает из-за дисков

12
M
На сайте с 28.06.2009
Offline
86
2404

Привет.

Есть сервер от Hetzner. На нем стоит CentOS 5.5 64bit + xen

release                : 2.6.18-194.26.1.el5xen

version : #1 SMP Tue Nov 9 13:35:30 EST 2010
machine : x86_64
nr_cpus : 8
nr_nodes : 1
cores_per_socket : 4
threads_per_core : 2
cpu_mhz : 2807
hw_caps : bfebfbff:28100800:00000000:00000340:0098e3bd:00000000:00000001:00000000
virt_caps : hvm
total_memory : 24567
free_memory : 3468
node_to_cpu : node0:0-7
node_to_memory : node0:3468
xen_major : 3
xen_minor : 4
xen_extra : .3
xen_caps : xen-3.0-x86_64 xen-3.0-x86_32p hvm-3.0-x86_32 hvm-3.0-x86_32p hvm-3.0-x86_64
xen_scheduler : credit
xen_pagesize : 4096
platform_params : virt_start=0xffff800000000000
xen_changeset : unavailable
cc_compiler : gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)
cc_compile_by : root
cc_compile_domain : gitco.tld
cc_compile_date : Tue Sep 28 12:37:53 CEST 2010
xend_config_format : 4

Сначала использовался в стандартной конфигурации - raid-1 сотфверный из двух ST31500341AS дисков.

Периодически (раз в неделю-две) сервер падал без каких-либо сообщений в логи. Пару раз удалось отследить падения через KVM консоль, и вот что там было:

Было похоже, что диски валятся когда идет нагрузка на ФС. Причем raid не распадался, smart никаких ошибок не показывал.

Решив, что с hardware raid может быть получше, поставили контроллер Adaptec.

Добавили еще два диска, получился raid 1 на систему + raid 1 на виртуалки.

Но зависания продолжились, в логах можно было заметить строчку

aacraid: Host adapter abort request (0,0,1,0)

за секунды до падения.

Контроллер никаких ошибок не выдает, массив не распадается.

Какие будут советы, чтобы исправить эти зависы? Замена дисков, сервера, дата-центра - это все хорошо, но нужен именно этот сервер с этими дисками в этом ДЦ.

Если ли у xen какие-то средства для лимитирования i/o для контейнеров?

В общем, любая помощь приветствуется. Готов оплатить услуги.

Спасибо.

KU
На сайте с 17.07.2008
Offline
251
#1

удалено......

Хостинг ( https://good-host.net ) / Linux VPS ( https://good-host.net/vps ) / Windows VPS ( https://good-host.net/windows-vps ) / Выделенные серверы ( https://good-host.net/dedicated ) 14 лет онлайн!
B
На сайте с 21.01.2009
Offline
31
#2

Отписал в личку, но скажу и тут, вдруг кому еще пригодиться.

Первый скрин на 99,9% говорит о том что sda дохлый.

Третий опять говорит что sda дохлый

Последний говорит уже 50/50 тут или софт или хард проблема. Как вариант попробовать загрузиться с параметрами ядра acpi=off noapic

aacraid: Host adapter abort request (0,0,1,0) так же говорит что диск один мертвый. Скорее всего это тот же диск который был когда то sda

Решение: замена диска или попробовать заменить шлейф

PS смарт не всегда говорит то что диску капут, ядро видит это быстрее и более точно.

Услуги по удаленному администрированию серверов (/ru/forum/744675)
Nanotik
На сайте с 20.11.2010
Offline
27
#3
Moskovitter:
Какие будут советы, чтобы исправить эти зависы? Замена дисков, сервера, дата-центра - это все хорошо, но нужен именно этот сервер с этими дисками в этом ДЦ.
Если ли у xen какие-то средства для лимитирования i/o для контейнеров?

В общем, любая помощь приветствуется. Готов оплатить услуги.
Спасибо.

Здравствуйте.

Насчет регулирования io - можете прочитать соответствующую статью на xgu.ru.

Все же, судя по скриншотам, я бы предположил, что проблема с дисками. Проверку полную делали для дисков, конечно же? С температурой сервера все в порядке, охлаждение в норме? Иногда подобное может наблюдаться при перегреве дисков.

Если потребуется помощь, можете обратиться в личку.

M
На сайте с 28.06.2009
Offline
86
#4

Спасибо всем кто ответил.

Битость дисков - вопрос сомнительный. Такая проблема наблюдается на нескольких серверах.

Сервер может проработать и месяц без ребутов, а потом три раза за два дня навернуться. Причем падения скорее всего связаны с акивным дерганьем дисков виртуалкой(ами) - когда многопоточно качаются файлы.

Вот вывод контроллера:


./arcconf GETCONFIG 1 AL
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller Status : Optimal
Channel description : SAS/SATA
Controller Model : Adaptec 5405
Controller Serial Number : 0D351176220
Physical Slot : 55
Temperature : 95 C/ 203 F (Normal)
Installed memory : 256 MB
Copyback : Disabled
Background consistency check : Disabled
Automatic Failover : Enabled
Global task priority : High
Performance Mode : Default/Dynamic
Stayawake period : Disabled
Spinup limit internal drives : 0
Spinup limit external drives : 0
Defunct disk drive count : 0
Logical devices/Failed/Degraded : 2/0/0
SSDs assigned to MaxIQ Cache pool : 0
Maximum SSDs allowed in MaxIQ Cache pool : 8
NCQ status : Enabled
--------------------------------------------------------
Controller Version Information
--------------------------------------------------------
BIOS : 5.2-0 (17899)
Firmware : 5.2-0 (17899)
Driver : 1.1-5 (2461)
Boot Flash : 5.2-0 (17899)
--------------------------------------------------------
Controller Battery Information
--------------------------------------------------------
Status : Not Installed

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
Logical device name : HDD-RAID1
RAID level : 1
Status of logical device : Optimal
Size : 1428470 MB
Read-cache mode : Enabled
MaxIQ preferred cache setting : Enabled
MaxIQ cache setting : Disabled
Write-cache mode : Enabled (write-back)
Write-cache setting : Enabled (write-back)
Partitioned : Yes
Protected by Hot-Spare : No
Bootable : Yes
Failed stripes : No
Power settings : Disabled
--------------------------------------------------------
Logical device segment information
--------------------------------------------------------
Segment 0 : Present (0,0) 9VS4B190
Segment 1 : Present (0,1) 9VS4B0SA

Logical device number 1
Logical device name : Device 1
RAID level : 1
Status of logical device : Optimal
Size : 1428469 MB
Read-cache mode : Enabled
MaxIQ preferred cache setting : Disabled
MaxIQ cache setting : Disabled
Write-cache mode : Disabled (write-through)
Write-cache setting : Enabled (write-back) when protected by battery/ZMM
Partitioned : No
Protected by Hot-Spare : No
Bootable : No
Failed stripes : No
Power settings : Disabled
--------------------------------------------------------
Logical device segment information
--------------------------------------------------------
Segment 0 : Present (0,2) 9VS4KLKM
Segment 1 : Present (0,3) 9VS4KP95


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
Device #0
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,0(0:0)
Reported Location : Connector 0, Device 0
Vendor :
Model : ST31500341AS
Firmware : CC1H
Serial number : 9VS4B190
Size : 1430799 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
Power State : Full rpm
Supported Power States : Full rpm,Powered off
SSD : No
MaxIQ Cache Capable : No
MaxIQ Cache Assigned : No
NCQ status : Enabled
Device #1
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,1(1:0)
Reported Location : Connector 0, Device 1
Vendor :
Model : ST31500341AS
Firmware : CC1H
Serial number : 9VS4B0SA
Size : 1430799 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
Power State : Full rpm
Supported Power States : Full rpm,Powered off
SSD : No
MaxIQ Cache Capable : No
MaxIQ Cache Assigned : No
NCQ status : Enabled
Device #2
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,2(2:0)
Reported Location : Connector 0, Device 2
Vendor :
Model : ST31500341AS
Firmware : CC1H
Serial number : 9VS4KLKM
Size : 1430799 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
Power State : Full rpm
Supported Power States : Full rpm,Powered off
SSD : No
MaxIQ Cache Capable : No
MaxIQ Cache Assigned : No
NCQ status : Enabled
Device #3
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,3(3:0)
Reported Location : Connector 0, Device 3
Vendor :
Model : ST31500341AS
Firmware : CC1H
Serial number : 9VS4KP95
Size : 1430799 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
Power State : Full rpm
Supported Power States : Full rpm,Powered off
SSD : No
MaxIQ Cache Capable : No
MaxIQ Cache Assigned : No
NCQ status : Enabled

По смарту диски не выдают никаких ошибок.

Andreyka
На сайте с 19.02.2005
Offline
822
#5

Проблема в контроллере судя по всему

Но я бы поменял для интересу первый диск и посмотрел что будет

Не стоит плодить сущности без необходимости
Nanotik
На сайте с 20.11.2010
Offline
27
#6
Andreyka:
Проблема в контроллере судя по всему
Но я бы поменял для интересу первый диск и посмотрел что будет

А откуда такой вывод, что проблема с контроллером?

Zaqwr
На сайте с 08.08.2007
Offline
111
#7

вывод смарта для дисков покажите

ещё скорее всего у вас проблема с контейнером одной из виртуалок (dm-11) 99% тут

Администрирование, Linux, Cisco, Juniper
Andreyka
На сайте с 19.02.2005
Offline
822
#8

Nanotik, нутром чую

Nanotik
На сайте с 20.11.2010
Offline
27
#9

Andreyka,

Moskovitter:
Такая проблема наблюдается на нескольких серверах.
Сервер может проработать и месяц без ребутов, а потом три раза за два дня навернуться.

Сомневаюсь, что ТС'у продали сразу несколько разных серверов с одинаково неисправными контроллерами :)

TarlQI
На сайте с 13.10.2008
Offline
53
#10
Nanotik:
Andreyka,


Сомневаюсь, что ТС'у продали сразу несколько разных серверов с одинаково неисправными контроллерами :)

если партия одна почему бы и нет?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий