Кто пользуется hetzner.de? - часть 6

TP
На сайте с 10.01.2010
Offline
90
#371
Dimanych:
Кто разбирается в этих логах, не означает ли это то что недостаточно энергии для работы процессора? Может они просто мало ватт выделяют? :)

У меня это пропало из логов после их фиксов.

Лучше их попросить сделать визуальный осмотр, там есть в опциях тикета такое.

Кстати, советую проверить температуру.

Ставится lm-sensors, дальше запускается sensors-detect для настройки.

И sensors уже выдаст температуру.

На моем сервере вот так:

Physical id 0: +58.0°C (high = +80.0°C, crit = +100.0°C)

Core 0: +58.0°C (high = +80.0°C, crit = +100.0°C)

Core 1: +55.0°C (high = +80.0°C, crit = +100.0°C)

Core 2: +56.0°C (high = +80.0°C, crit = +100.0°C)

Core 3: +51.0°C (high = +80.0°C, crit = +100.0°C)

---------- Добавлено 28.07.2013 в 10:39 ----------

NQhost:
В Центральной Европе сейчас жара стоит, а ДЦ, очевидно, слегка экономит на энергии, которая тратится на охлаждение.

Не надо ля-ля, у меня два сервера с загрузкой CPU 100%, все ядра работают на максимальной частоте круглосуточно.

Все работает стабильно.

D
На сайте с 05.06.2007
Offline
155
#372

Отписал сейчас, сказали пойдут проверять, на данный момент система последние несколько часов была нагружена лишь на 20%. Надеюсь чего нибудь там поправят, так как за ночь каждые пол часа выкидывало блок подобных логов.

Вот температура:

sensors
acpitz-virtual-0
Adapter: Virtual device
temp1: +27.8°C (crit = +105.0°C)
temp2: +29.8°C (crit = +105.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0: +65.0°C (high = +80.0°C, crit = +100.0°C)
Core 0: +56.0°C (high = +80.0°C, crit = +100.0°C)
Core 1: +65.0°C (high = +80.0°C, crit = +100.0°C)
Core 2: +57.0°C (high = +80.0°C, crit = +100.0°C)
Core 3: +62.0°C (high = +80.0°C, crit = +100.0°C)

Это у вас при 100%ой нагрузке 60 градусов даже нет?

Написал не мало шедевров ;)
P
На сайте с 16.03.2009
Offline
144
#373

Dimanych, поставьте munin и sensors плагины.

будет наглядно видно как изменяется температура cpu и hdd

TP
На сайте с 10.01.2010
Offline
90
#374
Dimanych:
Это у вас при 100%ой нагрузке 60 градусов даже нет?

При 100% 64-67 градусов.

D
На сайте с 05.06.2007
Offline
155
#375

Чегож тогда эти ошибки вылазят при моей температуре, я так понимаю они должны были появляться где-то при 80градусах ...

Поменяли они пасту и установили дополнительный вентилятор :) Интересно поможет ли ...

Сейчас дал ему нагрузку на 70%, показывает 68-70 градусов, повысил до 90%, теперь 73 градуса...

Вылезла новая ошибка:

[ 6297.309548] sched: RT throttling activated

после неё температура упала до 70 опять, видимо щадящий режим активироавался)

K
На сайте с 05.07.2011
Offline
60
#376

Сегодня на одной из машинок поползло в kernel.log:

Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371443] BUG: unable to handle kernel paging request at ffffffff813ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371492] IP: [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371532] PGD 1607067 PUD 160b063 PMD 12001e1
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371566] Oops: 0003 [#1] SMP
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371589] CPU 4
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371601] Modules linked in: cpufreq_userspace cpufreq_stats cpufreq_powersave cpufreq_conservative ext3 jbd loop i2c_i801 core
temp crc32c_intel ghash_clmulni_intel aesni_intel aes_x86_64 snd_pcm snd_page_alloc snd_timer snd parport_pc iTCO_wdt shpchp mxm_wmi aes_generic acpi_cpufreq mperf iTCO_vendor_support
cryptd parport i2c_core soundcore wmi processor video button evdev pcspkr ext4 crc16 jbd2 mbcache btrfs crc32c libcrc32c zlib_deflate dm_mod raid1 md_mod sg sd_mod crc_t10dif thermal a
hci libahci libata scsi_mod ehci_hcd r8169 mii fan thermal_sys xhci_hcd usbcore usb_common [last unloaded: scsi_wait_scan]
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372011]
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372025] Pid: 11533, comm: java Not tainted 3.2.0-4-amd64 #1 Debian 3.2.46-1 MSI MS-7816/H87-G43 (MS-7816)
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372076] RIP: 0010:[<ffffffff811ad2a0>] [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372122] RSP: 0018:ffff8807fb54dc58 EFLAGS: 00010246
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372148] RAX: ffffffff813ac6e0 RBX: ffff8807fb54dcf0 RCX: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372182] RDX: ffff8807fb54dd08 RSI: ffffffff817ac6e0 RDI: ffffffff817ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372243] RBP: ffffffff817ac6e0 R08: 00000000c2cd1142 R09: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372298] R10: 0000000000000000 R11: 0000000000000202 R12: ffff8807fb54dcf8
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372354] R13: ffffffff817ac6e0 R14: ffff8807fb54dd28 R15: 0000000006f1f728
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372412] FS: 00007fe509ec6700(0000) GS:ffff88081eb00000(0000) knlGS:0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372495] CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372545] CR2: ffffffff813ac6e0 CR3: 00000007fc78a000 CR4: 00000000001406e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372602] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372658] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372715] Process java (pid: 11533, threadinfo ffff8807fb54c000, task ffff8807f97f1590)
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372796] Stack:
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372831] 0000000000000000 ffff8807fb54dcf0 0000000000000000 ffffffff817ac6d8
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372923] ffff8807f97f1590 ffffffff8106d269 7fffffffffffffff 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373013] 0000000000000000 0000000000000000 0000000000000000 00000000ffffffff
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373103] Call Trace:
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373152] [<ffffffff8106d269>] ? futex_wait_queue_me+0x6d/0xd5
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373209] [<ffffffff8106de06>] ? futex_wait+0x10c/0x236
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373267] [<ffffffff8106e057>] ? futex_wake+0xe9/0xfb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373322] [<ffffffff8106f10c>] ? do_futex+0xb5/0x810
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373376] [<ffffffff810fb5eb>] ? fget_light+0x67/0x7b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373433] [<ffffffff812800d8>] ? sys_sendto+0x108/0x137
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373491] [<ffffffff8106f987>] ? sys_futex+0x120/0x151
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373547] [<ffffffff8100ee82>] ? math_state_restore+0x4b/0x55
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373604] [<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373654] Code: 48 8b 42 10 4c 89 62 10 48 83 c2 08 48 89 53 08 48 89 43 10 4c 89 20 48 8b 45 08 48 8d 53 18 48 89 55 08 48 89
6b 18 48 89 43 20 <48> 89 10 58 5b 5d 41 5c 41 5d c3 4c 8b 47 08 48 8d 57 08 49 39
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373978] RIP [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374034] RSP <ffff8807fb54dc58>
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374075] CR2: ffffffff813ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374523] ---[ end trace 33fa23437fa5c42d ]---
Jul 27 23:01:12 Debian-70-wheezy-64-minimal kernel: [18109.809656] BUG: soft lockup - CPU#0 stuck for 23s! [java:11493]
Jul 27 23:01:12 Debian-70-wheezy-64-minimal kernel: [18109.809760] Modules linked in: cpufreq_userspace cpufreq_stats cpufreq_powersave cpufreq_conservative ext3 jbd loop i2c_i801 core
temp crc32c_intel ghash_clmulni_intel aesni_intel aes_x86_64 snd_pcm snd_page_alloc snd_timer snd parport_pc iTCO_wdt shpchp mxm_wmi aes_generic acpi_cpufreq mperf iTCO_vendor_support
cryptd parport i2c_core soundcore wmi processor video button evdev pcspkr ext4 crc16 jbd2 mbcache btrfs crc32c libcrc32c zlib_deflate dm_mod raid1 md_mod sg sd_mod crc_t10dif thermal a
hci libahci libata scsi_mod ehci_hcd r8169 mii fan thermal_sys xhci_hcd usbcore usb_common [last unloaded: scsi_wait_scan]

До этого было все пусто. Вообще. :)

Температуру так же мониторю, проблемы не вижу с ней.

D
На сайте с 05.06.2007
Offline
155
#377

Погуглил на вашу ошибку, немцы пишут что дело в RAM, правда memtest у кого то проходил без ошибок, но одному помогло просто перевставка модуля памяти, вот такие дела. :) Опять наверное криво собранный сервер ...

D
На сайте с 05.06.2007
Offline
155
#378

Не помог мне дополнительный вентилятор и новая паста. Всё было нормально пол дня, а как только снизил нагрузку до 20%, температура упала до 45 градусов и на удивление опять сыпанули ошибки:

Jul 28 17:25:17 my kernel: [ 5827.554293] CPU4: Core power limit notification (total events = 1)
Jul 28 17:25:17 my kernel: [ 5827.554295] CPU2: Package power limit notification (total events = 1)
...

Конечно главное что сервер не виснет, но как то странно всё это и боязливо использовать такой сервер :(

P
На сайте с 16.03.2009
Offline
144
#379

Dimanych, с линейкой EX4 всегда были проблемы. То диски умрут, то сеть link down / link up(драйвер был r8168). И в продакшене - это сущий ад. Постоянно писать в саппорт. То биос обновят, то тест железяки 14 часов и т.д.

EX6 - отличные, никаких проблем.

TP
На сайте с 10.01.2010
Offline
90
#380

А у кого-нибудь есть статистика по многим серверам EX40 (новым)?

Диски у них уже другие, умирать не должны.

А что с процессором?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий