xen-нода падает из-за дисков

86

Moskovitter

13 января 2011, 09:18

2448

Привет.

Есть сервер от Hetzner. На нем стоит CentOS 5.5 64bit + xen

release                : 2.6.18-194.26.1.el5xen

version                : #1 SMP Tue Nov 9 13:35:30 EST 2010

machine                : x86_64

nr_cpus                : 8

nr_nodes               : 1

cores_per_socket       : 4

threads_per_core       : 2

cpu_mhz                : 2807

hw_caps                : bfebfbff:28100800:00000000:00000340:0098e3bd:00000000:00000001:00000000

virt_caps              : hvm

total_memory           : 24567

free_memory            : 3468

node_to_cpu            : node0:0-7

node_to_memory         : node0:3468

xen_major              : 3

xen_minor              : 4

xen_extra              : .3

xen_caps               : xen-3.0-x86_64 xen-3.0-x86_32p hvm-3.0-x86_32 hvm-3.0-x86_32p hvm-3.0-x86_64 

xen_scheduler          : credit

xen_pagesize           : 4096

platform_params        : virt_start=0xffff800000000000

xen_changeset          : unavailable

cc_compiler            : gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)

cc_compile_by          : root

cc_compile_domain      : gitco.tld

cc_compile_date        : Tue Sep 28 12:37:53 CEST 2010

xend_config_format     : 4

Сначала использовался в стандартной конфигурации - raid-1 сотфверный из двух ST31500341AS дисков.

Периодически (раз в неделю-две) сервер падал без каких-либо сообщений в логи. Пару раз удалось отследить падения через KVM консоль, и вот что там было:

Было похоже, что диски валятся когда идет нагрузка на ФС. Причем raid не распадался, smart никаких ошибок не показывал.

Решив, что с hardware raid может быть получше, поставили контроллер Adaptec.

Добавили еще два диска, получился raid 1 на систему + raid 1 на виртуалки.

Но зависания продолжились, в логах можно было заметить строчку

aacraid: Host adapter abort request (0,0,1,0)

за секунды до падения.

Контроллер никаких ошибок не выдает, массив не распадается.

Какие будут советы, чтобы исправить эти зависы? Замена дисков, сервера, дата-центра - это все хорошо, но нужен именно этот сервер с этими дисками в этом ДЦ.

Если ли у xen какие-то средства для лимитирования i/o для контейнеров?

В общем, любая помощь приветствуется. Готов оплатить услуги.

Спасибо.

KU

251

Vitalii Polishchuk

13 января 2011, 09:43

#1

удалено......

Хостинг ( https://good-host.net ) / Linux VPS ( https://good-host.net/vps ) / Windows VPS ( https://good-host.net/windows-vps ) / Выделенные серверы ( https://good-host.net/dedicated ) 14 лет онлайн!

B

31

Bloodу

13 января 2011, 10:11

#2

Отписал в личку, но скажу и тут, вдруг кому еще пригодиться.

Первый скрин на 99,9% говорит о том что sda дохлый.

Третий опять говорит что sda дохлый

Последний говорит уже 50/50 тут или софт или хард проблема. Как вариант попробовать загрузиться с параметрами ядра acpi=off noapic

aacraid: Host adapter abort request (0,0,1,0) так же говорит что диск один мертвый. Скорее всего это тот же диск который был когда то sda

Решение: замена диска или попробовать заменить шлейф

PS смарт не всегда говорит то что диску капут, ядро видит это быстрее и более точно.

Услуги по удаленному администрированию серверов (/ru/forum/744675)

Кто пользуется hetzner.de? - Как отличить 1 HDD Комп выдает: reboot and

27

Nanotik

13 января 2011, 10:12

#3

Moskovitter:
Какие будут советы, чтобы исправить эти зависы? Замена дисков, сервера, дата-центра - это все хорошо, но нужен именно этот сервер с этими дисками в этом ДЦ.
Если ли у xen какие-то средства для лимитирования i/o для контейнеров?

В общем, любая помощь приветствуется. Готов оплатить услуги.
Спасибо.

Здравствуйте.

Насчет регулирования io - можете прочитать соответствующую статью на xgu.ru.

Все же, судя по скриншотам, я бы предположил, что проблема с дисками. Проверку полную делали для дисков, конечно же? С температурой сервера все в порядке, охлаждение в норме? Иногда подобное может наблюдаться при перегреве дисков.

Если потребуется помощь, можете обратиться в личку.

Падение FreeBSD 7.3 нужна консультация: работа веб-сервера Периодический самозапуск проверки дисков

M

86

Moskovitter

13 января 2011, 10:34

#4

Спасибо всем кто ответил.

Битость дисков - вопрос сомнительный. Такая проблема наблюдается на нескольких серверах.

Сервер может проработать и месяц без ребутов, а потом три раза за два дня навернуться. Причем падения скорее всего связаны с акивным дерганьем дисков виртуалкой(ами) - когда многопоточно качаются файлы.

Вот вывод контроллера:


./arcconf GETCONFIG 1 AL
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5405
   Controller Serial Number                 : 0D351176220
   Physical Slot                            : 55
   Temperature                              : 95 C/ 203 F (Normal)
   Installed memory                         : 256 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   SSDs assigned to MaxIQ Cache pool        : 0
   Maximum SSDs allowed in MaxIQ Cache pool : 8
   NCQ status                               : Enabled
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (17899)
   Firmware                                 : 5.2-0 (17899)
   Driver                                   : 1.1-5 (2461)
   Boot Flash                               : 5.2-0 (17899)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Not Installed

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
   Logical device name                      : HDD-RAID1
   RAID level                               : 1
   Status of logical device                 : Optimal
   Size                                     : 1428470 MB
   Read-cache mode                          : Enabled
   MaxIQ preferred cache setting            : Enabled
   MaxIQ cache setting                      : Disabled
   Write-cache mode                         : Enabled (write-back)
   Write-cache setting                      : Enabled (write-back)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : Yes
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,0)             9VS4B190
   Segment 1                                : Present (0,1)             9VS4B0SA

Logical device number 1
   Logical device name                      : Device 1
   RAID level                               : 1
   Status of logical device                 : Optimal
   Size                                     : 1428469 MB
   Read-cache mode                          : Enabled
   MaxIQ preferred cache setting            : Disabled
   MaxIQ cache setting                      : Disabled
   Write-cache mode                         : Disabled (write-through)
   Write-cache setting                      : Enabled (write-back) when protected by battery/ZMM
   Partitioned                              : No
   Protected by Hot-Spare                   : No
   Bootable                                 : No
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,2)             9VS4KLKM
   Segment 1                                : Present (0,3)             9VS4KP95


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,0(0:0)
         Reported Location                  : Connector 0, Device 0
         Vendor                             :
         Model                              : ST31500341AS
         Firmware                           : CC1H
         Serial number                      : 9VS4B190
         Size                               : 1430799 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off
         SSD                                : No
         MaxIQ Cache Capable                : No
         MaxIQ Cache Assigned               : No
         NCQ status                         : Enabled
      Device #1
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,1(1:0)
         Reported Location                  : Connector 0, Device 1
         Vendor                             :
         Model                              : ST31500341AS
         Firmware                           : CC1H
         Serial number                      : 9VS4B0SA
         Size                               : 1430799 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off
         SSD                                : No
         MaxIQ Cache Capable                : No
         MaxIQ Cache Assigned               : No
         NCQ status                         : Enabled
      Device #2
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,2(2:0)
         Reported Location                  : Connector 0, Device 2
         Vendor                             :
         Model                              : ST31500341AS
         Firmware                           : CC1H
         Serial number                      : 9VS4KLKM
         Size                               : 1430799 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off
         SSD                                : No
         MaxIQ Cache Capable                : No
         MaxIQ Cache Assigned               : No
         NCQ status                         : Enabled
      Device #3
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,3(3:0)
         Reported Location                  : Connector 0, Device 3
         Vendor                             :
         Model                              : ST31500341AS
         Firmware                           : CC1H
         Serial number                      : 9VS4KP95
         Size                               : 1430799 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         Power State                        : Full rpm
         Supported Power States             : Full rpm,Powered off
         SSD                                : No
         MaxIQ Cache Capable                : No
         MaxIQ Cache Assigned               : No
         NCQ status                         : Enabled

По смарту диски не выдают никаких ошибок.

Как создавался Яндекс.Диск PROOFSEO II: Алексей Ярин Google Chrome начнёт блокировать

822

Andreyka

13 января 2011, 10:40

#5

Проблема в контроллере судя по всему

Но я бы поменял для интересу первый диск и посмотрел что будет

Не стоит плодить сущности без необходимости

27

Nanotik

13 января 2011, 22:24

#6

Andreyka:
Проблема в контроллере судя по всему
Но я бы поменял для интересу первый диск и посмотрел что будет

А откуда такой вывод, что проблема с контроллером?

111

Zaqwr

14 января 2011, 06:09

#7

вывод смарта для дисков покажите

ещё скорее всего у вас проблема с контейнером одной из виртуалок (dm-11) 99% тут

Администрирование, Linux, Cisco, Juniper

822

Andreyka

14 января 2011, 09:58

#8

Nanotik, нутром чую

27

Nanotik

14 января 2011, 11:18

#9

Andreyka,

Moskovitter:
Такая проблема наблюдается на нескольких серверах.
Сервер может проработать и месяц без ребутов, а потом три раза за два дня навернуться.

Сомневаюсь, что ТС'у продали сразу несколько разных серверов с одинаково неисправными контроллерами :)

53

TarlQI

14 января 2011, 11:38

#10

Nanotik:
Andreyka,

Сомневаюсь, что ТС'у продали сразу несколько разных серверов с одинаково неисправными контроллерами :)

если партия одна почему бы и нет?

Курс биткоина превысил $50 тысяч

Что делать, чтобы попасть в ответы Google Bard