kDas

Рейтинг
60
Регистрация
05.07.2011

Den73, хм, странности есть.

На новых серверах, которые падают:

CPU: Physical Processor ID: 0
CPU: Processor Core ID: 0
ENERGY_PERF_BIAS: Set to 'normal', was 'performance'
ENERGY_PERF_BIAS: View and update with x86_energy_perf_policy(8)
PAX: PCID detected
mce: CPU supports 9 MCE banks
CPU0: Thermal monitoring enabled (TM1)

На старых такого нет.

Процессоры везде — Intel(R) Xeon(R) CPU E3-1245 V2 @ 3.40GHz (fam: 06, model: 3a, stepping: 09).

Однако, при этом

dmesg | grep tsc

tsc: Fast TSC calibration using PIT

tsc: Detected 3400.112 MHz processor

tsc: Refined TSC clocksource calibration: 3399.999 MHz

Switching to clocksource tsc

Примерно одинаково везде. Нормальные.

Даже не знаю какую нагрузку дать, чтобы проверить. Готов так же и заплатить за помощь в исправлении проблемы.

Привет!

Romka_Kharkov:
На счет точек ничего не скажу, но вот такие вот зависания системы как вы говорите я ловил при следующих случаях:

1) Включенное ACPI.
2) Недостаточное количество питания. (Например в тачке много винтов и в момент какого-то всплеска их активности просто виснет тачка, причем именно виснет, а не отключается... как-то так).
3) Перегрев.

Мой вопрос к вам заключается в следующем: Эти 14 серверов о которых идет речь, они как появились ? Все одним днем ? или вы сперва взяли 1 много лет назад , потом еще и еще и сейчас их 14 и есть проблема? Либо же с момента первого сервера проблема? Потому как действительно на таком количестве + разных ядрах выглядит весьма странно, хотя не буду удивлен если это Java уничтожает так сервер .... имел когда-то дело с Tomcat... так ему и 30 гиг памяти это тьфу.... а каталина это ваще зло :D

Сервера стояли 12 дней без нагрузки — было всё ок. Как нагрузка стала появляться — началось.

Хрен вот знает, не заметил там перегрева. Кстати, по питанию тоже вряд ли. Полтора десятков таких серверов на гораздо большей нагрузке себя ок чувствуют. :)

netwind:
И какое из этих слов помешает приложению использовать ресурсы так интенсивно, что будет казаться будто сервер вообще ни на что не отвечает?

Попробуйте мониторинг производительности наладить. Такие зависания не происходят одномоментно, им должен предшествовать рост хоть каких-нибудь параметров.
Даже если дело не в нагрузке, при любой причине лишним мониторинг не будет.

Файловая система какая? какие-то особенные настройки монтирования используются?
Впрочем, разрушение файлов логов может быть вызвано способом приведения в жизнь такого сервера . Похоже, эти "точки" - нулевые байты.

http://d.pr/i/qMTL+ вт пример нагрузки и падений. :)

servercraft:
насчет hetzner - возможно проблемы bios/ram, попросите обновить биос
http://www.webhostingtalk.com/showpost.php?p=8785162&postcount=125

Если бы только там это повторялось.. :)

servts:
Очень удобная http://vestacp.com/ под linux
Вечная лицензия ispmgr lite стоит как 1 раз в кафе посидеть. Неужто жалко?

Крайне рекомендую vestacp. Агитирую cloudlinux-ов начать работать совместно с Vesta. Очень удобная система, имеющая как отличный API, так и здоровский гуй. :)

Есть же:

Не знаю я, с этой армией. Из 76 региона трое знакомых служить ушли. Все там познакомились как минимум с травкой. Один, придя на гражданку, бросил сигареты, теперь дует. Ежедневно. Это нормально, нет? Сам пока в универе, хз, может стоит армию "закрыть" альтернативным методом.

slovoblud:
Друзья, спасибо большое всем, кто ответил.
На случай, если кому понадобится - нашёл клондайк забугорных хостеров с ценами порядка 100-200 рублей за минималку, что вдвое дешевле того, что предлагается у нас, буду там что-нибудь подбирать.

http://flyspring.ru можешь мое попробовать. Хотя бы на тест возьми, посоветуешь может чо :)

Да что там, коль минималка - можно и бесплатно пару месяцев. Типа, папины друзья, всё такое. :D

servts:
Заказал у них на тест cdn для сайта. Тестируем. А то в прошлом месяце нас ddosом положили за cloudflare. Надо теперь их протестить на ddos.
Если кому надо их cdn потестить -> http://servts.com/
Ipv6 на cdn вроде нет пока.

С сентября на OVH будет представляться услуга защиты от DDoS. Поначалу, правда, в бета-тесте. Возможно только на тарифах, где сервера стоят за Cisco Nexus (ks/sp отпадают, они за Catalyst).

Сегодня на одной из машинок поползло в kernel.log:

Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371443] BUG: unable to handle kernel paging request at ffffffff813ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371492] IP: [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371532] PGD 1607067 PUD 160b063 PMD 12001e1
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371566] Oops: 0003 [#1] SMP
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371589] CPU 4
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.371601] Modules linked in: cpufreq_userspace cpufreq_stats cpufreq_powersave cpufreq_conservative ext3 jbd loop i2c_i801 core
temp crc32c_intel ghash_clmulni_intel aesni_intel aes_x86_64 snd_pcm snd_page_alloc snd_timer snd parport_pc iTCO_wdt shpchp mxm_wmi aes_generic acpi_cpufreq mperf iTCO_vendor_support
cryptd parport i2c_core soundcore wmi processor video button evdev pcspkr ext4 crc16 jbd2 mbcache btrfs crc32c libcrc32c zlib_deflate dm_mod raid1 md_mod sg sd_mod crc_t10dif thermal a
hci libahci libata scsi_mod ehci_hcd r8169 mii fan thermal_sys xhci_hcd usbcore usb_common [last unloaded: scsi_wait_scan]
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372011]
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372025] Pid: 11533, comm: java Not tainted 3.2.0-4-amd64 #1 Debian 3.2.46-1 MSI MS-7816/H87-G43 (MS-7816)
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372076] RIP: 0010:[<ffffffff811ad2a0>] [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372122] RSP: 0018:ffff8807fb54dc58 EFLAGS: 00010246
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372148] RAX: ffffffff813ac6e0 RBX: ffff8807fb54dcf0 RCX: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372182] RDX: ffff8807fb54dd08 RSI: ffffffff817ac6e0 RDI: ffffffff817ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372243] RBP: ffffffff817ac6e0 R08: 00000000c2cd1142 R09: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372298] R10: 0000000000000000 R11: 0000000000000202 R12: ffff8807fb54dcf8
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372354] R13: ffffffff817ac6e0 R14: ffff8807fb54dd28 R15: 0000000006f1f728
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372412] FS: 00007fe509ec6700(0000) GS:ffff88081eb00000(0000) knlGS:0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372495] CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372545] CR2: ffffffff813ac6e0 CR3: 00000007fc78a000 CR4: 00000000001406e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372602] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372658] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372715] Process java (pid: 11533, threadinfo ffff8807fb54c000, task ffff8807f97f1590)
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372796] Stack:
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372831] 0000000000000000 ffff8807fb54dcf0 0000000000000000 ffffffff817ac6d8
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.372923] ffff8807f97f1590 ffffffff8106d269 7fffffffffffffff 0000000000000000
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373013] 0000000000000000 0000000000000000 0000000000000000 00000000ffffffff
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373103] Call Trace:
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373152] [<ffffffff8106d269>] ? futex_wait_queue_me+0x6d/0xd5
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373209] [<ffffffff8106de06>] ? futex_wait+0x10c/0x236
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373267] [<ffffffff8106e057>] ? futex_wake+0xe9/0xfb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373322] [<ffffffff8106f10c>] ? do_futex+0xb5/0x810
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373376] [<ffffffff810fb5eb>] ? fget_light+0x67/0x7b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373433] [<ffffffff812800d8>] ? sys_sendto+0x108/0x137
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373491] [<ffffffff8106f987>] ? sys_futex+0x120/0x151
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373547] [<ffffffff8100ee82>] ? math_state_restore+0x4b/0x55
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373604] [<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373654] Code: 48 8b 42 10 4c 89 62 10 48 83 c2 08 48 89 53 08 48 89 43 10 4c 89 20 48 8b 45 08 48 8d 53 18 48 89 55 08 48 89
6b 18 48 89 43 20 <48> 89 10 58 5b 5d 41 5c 41 5d c3 4c 8b 47 08 48 8d 57 08 49 39
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.373978] RIP [<ffffffff811ad2a0>] plist_add+0xb0/0xbb
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374034] RSP <ffff8807fb54dc58>
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374075] CR2: ffffffff813ac6e0
Jul 27 23:00:45 Debian-70-wheezy-64-minimal kernel: [18083.374523] ---[ end trace 33fa23437fa5c42d ]---
Jul 27 23:01:12 Debian-70-wheezy-64-minimal kernel: [18109.809656] BUG: soft lockup - CPU#0 stuck for 23s! [java:11493]
Jul 27 23:01:12 Debian-70-wheezy-64-minimal kernel: [18109.809760] Modules linked in: cpufreq_userspace cpufreq_stats cpufreq_powersave cpufreq_conservative ext3 jbd loop i2c_i801 core
temp crc32c_intel ghash_clmulni_intel aesni_intel aes_x86_64 snd_pcm snd_page_alloc snd_timer snd parport_pc iTCO_wdt shpchp mxm_wmi aes_generic acpi_cpufreq mperf iTCO_vendor_support
cryptd parport i2c_core soundcore wmi processor video button evdev pcspkr ext4 crc16 jbd2 mbcache btrfs crc32c libcrc32c zlib_deflate dm_mod raid1 md_mod sg sd_mod crc_t10dif thermal a
hci libahci libata scsi_mod ehci_hcd r8169 mii fan thermal_sys xhci_hcd usbcore usb_common [last unloaded: scsi_wait_scan]

До этого было все пусто. Вообще. :)

Температуру так же мониторю, проблемы не вижу с ней.

qpPeW:
кому как...

Россиянам, в большинстве своем, больше подходит Рубе, маршрут идет через Финляндию. :)

Народ, привет.

http://ru.hetzner.com/hosting/produkte_rootserver/ex40 - 4 штуки таких взяли. Постоянно падают. В плане, аптайм еще не достигал даже 4-х дней ни на одной машинке.

Кто-нибудь встречался уже с этим?

Всего: 288