Проблемы с сетью

12
P
На сайте с 16.03.2009
Offline
144
2544

День назад вылетел из ssh, зашел снова, и обнаружил в логе

Oct 10 15:44:18 host-5 kernel: [91522.910264] r8169 0000:03:00.0: eth0: link down
Oct 10 15:44:21 host-5 kernel: [91525.255116] r8169 0000:03:00.0: eth0: link up
Oct 10 15:44:33 host-5 kernel: [91537.773078] r8169 0000:03:00.0: eth0: link down
Oct 10 15:44:53 host-5 kernel: [91557.447399] r8169 0000:03:00.0: eth0: link up

Поставил r8168 драйвер. http://wiki.hetzner.de/index.php/Installation_des_r8168-Treibers/en

Сегодня утром

Oct 11 10:16:34 host-5 kernel: [34970.152419] r8168: eth0: link down
Oct 11 10:16:35 host-5 kernel: [34970.674281] r8168: eth0: link down
Oct 11 10:16:37 host-5 kernel: [34972.688883] r8168: eth0: link up
Oct 11 10:16:38 host-5 kernel: [34973.674202] r8168: eth0: link up
Oct 11 10:16:49 host-5 kernel: [34985.012568] r8168: eth0: link down
Oct 11 10:16:50 host-5 kernel: [34985.667411] r8168: eth0: link down
Oct 11 10:17:09 host-5 kernel: [35004.792170] r8168: eth0: link up
Oct 11 10:17:10 host-5 kernel: [35005.656979] r8168: eth0: link up

Связался с саппортом, в итоге

Dear Client,

we've checked the problem in the rescue system but we don't find there a problem.
We've set some new BIOS settings please check whether this solves the problem.
# ethtool -i eth0
driver: r8168
version: 8.032.00-NAPI
firmware-version:
bus-info: 0000:03:00.0
# lspci | grep Ethernet
03:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller (rev 09)

Кто-нибудь сталкивался с такой проблемой?

Den73
На сайте с 26.06.2010
Offline
523
#1

ловили при переходе на 1гб порт, только инет наглухо пропадал, аналогично собирал драйвер пришлось обратно на 100мб откатиться - нервы дороже, у них там можно нормальный NIC заказать отдельно.

P
На сайте с 16.03.2009
Offline
144
#2
Den73:
ловили при переходе на 1гб порт, только инет наглухо пропадал, аналогично собирал драйвер пришлось обратно на 100мб откатиться - нервы дороже, у них там можно нормальный NIC заказать отдельно.

100мб стоит. Сейчас попробую у них узнать, что они в биосе поменяли.

P
На сайте с 16.03.2009
Offline
144
#3

Что поменяли в настройках так и не сообщили.

Проблема повторилась. Теперь саппорт hetzner`a обновил bios.

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#4

poiuty, Может ваш сервер в порт лажевый включили или например у вас negotiation криво настроен на машинке... возможно у вас какое-то dhcp работает, возможно и возможно.... я бы начал с конца:

1. поменять карту

2. поменять кабель

3. поменять порт

если конечно в системе нет явных боков на тему настройки сети. Кстати у вас регулярность апов и даунов какова ?? это весь лог за сутки или там еще и еще ?

Обычно когда такие фишки происходят - рекомендую менять железо, было буквально недавно, почти то же самое только на e1000, блымает интерфейс и все... причем со стороны свича то же самое, на новой сетевке все завелось после смены интерфейса....

Есть около 15.000 ipv4 !!! (http://onyx.net.ua/price.php#ipv4) Качественный хостинг с 2005 года - лучшее клиентам! (http://onyx.net.ua/)
P
На сайте с 16.03.2009
Offline
144
#5
Romka_Kharkov:
poiuty, Может ваш сервер в порт лажевый включили или например у вас negotiation криво настроен на машинке... возможно у вас какое-то dhcp работает, возможно и возможно.... я бы начал с конца:
1. поменять карту
2. поменять кабель
3. поменять порт
если конечно в системе нет явных боков на тему настройки сети. Кстати у вас регулярность апов и даунов какова ?? это весь лог за сутки или там еще и еще ?

Обычно когда такие фишки происходят - рекомендую менять железо, было буквально недавно, почти то же самое только на e1000, блымает интерфейс и все... причем со стороны свича то же самое, на новой сетевке все завелось после смены интерфейса....

Стоит debian 6 и RHEL6 ovz.

Такой же софт стоит еще на 4 серверах. Аптайм у них 60~120 дней - сеть не падает. 77 дней этот сервер работал норм.

9 числа сеть упала и не поднялась, пришлось перезагружаться(тут как раз и посоветовали поставить другой драйвер).

Oct 9 11:22:27 host-5 kernel: [6731967.434821] r8169: eth0: link down
Oct 9 11:26:47 host-5 kernel: [6732227.566204] r8169 0000:03:00.0: eth0: link up
Oct 9 11:27:00 host-5 kernel: [6732240.232227] r8169: eth0: link down
Oct 9 11:27:19 host-5 kernel: [6732259.547877] r8169 0000:03:00.0: eth0: link up
Oct 9 11:51:52 host-5 kernel: [6733731.378613] r8169: eth0: link down

Далее за последние сутки сеть упала и поднялась в 10:16:

Oct 12 00:09:38 host-5 kernel: [47896.360302] r8168: eth0: link down
Oct 12 00:09:38 host-5 kernel: [47896.643650] r8168: eth0: link down
Oct 12 00:09:40 host-5 kernel: [47898.769635] r8168: eth0: link up
Oct 12 00:09:41 host-5 kernel: [47899.643303] r8168: eth0: link up
Oct 12 00:09:53 host-5 kernel: [47911.110355] r8168: eth0: link down
Oct 12 00:09:53 host-5 kernel: [47911.636758] r8168: eth0: link down
Oct 12 00:10:12 host-5 kernel: [47930.808216] r8168: eth0: link up
Oct 12 00:10:13 host-5 kernel: [47931.626332] r8168: eth0: link up

Следующий раз уже в 00:09

Oct 12 00:09:38 host-5 kernel: [47896.360302] r8168: eth0: link down
Oct 12 00:09:38 host-5 kernel: [47896.643650] r8168: eth0: link down
Oct 12 00:09:40 host-5 kernel: [47898.769635] r8168: eth0: link up
Oct 12 00:09:41 host-5 kernel: [47899.643303] r8168: eth0: link up
Oct 12 00:09:53 host-5 kernel: [47911.110355] r8168: eth0: link down
Oct 12 00:09:53 host-5 kernel: [47911.636758] r8168: eth0: link down
Oct 12 00:10:12 host-5 kernel: [47930.808216] r8168: eth0: link up
Oct 12 00:10:13 host-5 kernel: [47931.626332] r8168: eth0: link up

В 04:15 обновили bios. На 10.20 еще не было падений.

Заменять они пока особо ничего не хотят. Еще несколько дней подожду, по отправляю им письма в саппорт. В противном случае возьму EX6 и перекину на него. Там Ethernet controller: Intel Corporation 82574L Gigabit Network Connection

Romka_Kharkov
На сайте с 08.04.2009
Offline
485
#6

Если предположить что это датацентр , а не коморка с серверами, то такие положение дел говорит о порче железа скорее всего, ибо на практике есть сервера которые 100 лет назад были включены в какой-то свич и работают на ура по сей день, я полагаю что начались какие-то проблемы с оборудованием то ли на стороне сервера то ли на стороне свича... Переносить это конечно круто, но можно и легче вопрос решить, заменив сетевку или попросив просто поставить дополнительную за 5$ / месяц, вот если на ней все заработает, тогда можно и переезжать от такого вот суппорта. Так же проблема может быть и с материнкой, никаких аномалий других не замечено в системе? Еще рассмотрите вариант: возможно у вас мать с двумя бортовыми сетевками.... тоже можно попросить переткнуть в другой порт.

P
На сайте с 16.03.2009
Offline
144
#7
Romka_Kharkov:
Если предположить что это датацентр , а не коморка с серверами, то такие положение дел говорит о порче железа скорее всего, ибо на практике есть сервера которые 100 лет назад были включены в какой-то свич и работают на ура по сей день, я полагаю что начались какие-то проблемы с оборудованием то ли на стороне сервера то ли на стороне свича... Переносить это конечно круто, но можно и легче вопрос решить, заменив сетевку или попросив просто поставить дополнительную за 5$ / месяц, вот если на ней все заработает, тогда можно и переезжать от такого вот суппорта. Так же проблема может быть и с материнкой, никаких аномалий других не замечено в системе? Еще рассмотрите вариант: возможно у вас мать с двумя бортовыми сетевками.... тоже можно попросить переткнуть в другой порт.

В 19 снова падаем поднимаемся.

Oct 12 19:12:51 host-5 kernel: [53853.871853] r8168: eth0: link down
Oct 12 19:12:51 host-5 kernel: [53854.276614] r8168: eth0: link down
Oct 12 19:12:53 host-5 kernel: [53856.400549] r8168: eth0: link up
Oct 12 19:12:54 host-5 kernel: [53857.276336] r8168: eth0: link up
Oct 12 19:13:06 host-5 kernel: [53868.745056] r8168: eth0: link down
Oct 12 19:13:06 host-5 kernel: [53869.268554] r8168: eth0: link down
Oct 12 19:13:25 host-5 kernel: [53888.377620] r8168: eth0: link up
Oct 12 19:13:26 host-5 kernel: [53889.258386] r8168: eth0: link up

Пишу в саппорт hetzner`а. На этот раз предлагают

Dear client,
we would replace the network cable and the port in first step, are we allowed to
interrupt the network connection for this?

Аномалий не замечал, все работает как и работало раньше. Но сеть падает. Жду дальше...

Dear client,

we have replaced it and started the server to the installed system.
It is reachable again.
P
На сайте с 16.03.2009
Offline
144
#8

За сегодня. EX6, Debian 6 mininal + RHEL6 042stab062.2(стабл версия на данный момент).

Установка из rpm http://wiki.openvz.org/Install_kernel_from_RPM_on_Debian_6.0 + материал из http://wiki.openvz.org/Quick_installation

Из софта htop, fail2ban, iotop, bwm-ng. Сделал тестовую VPS. Через несколько часов выбило из SSH. Смотрю лог.

Oct 15 13:17:11 host-6 kernel: [12139.886613] e1000e: eth0 NIC Link is Down
Oct 15 13:17:19 host-6 kernel: [12147.197303] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx / Tx
Oct 15 13:17:31 host-6 kernel: [12160.024052] e1000e: eth0 NIC Link is Down
Oct 15 13:17:59 host-6 kernel: [12187.437176] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Посмотрел все логи, ничего нет. Окей, снес Debian.

Поставил CentOS и с помощью yum install (репо download.openvz.org, как же удобно то.) актуальное ядро 042stab062.2

Периодически посматриваю за тестовым сервером. Отработал 7 часов, думаю если не выбьет в течение 24~48 часов, значит проблемы нет.

Так же всю собранную инфу отправил в баг трекер.

Вопрос к сообществу. Кто-нибудь ставил 6 mininal + RHEL6 042stab062.2 или RHEL6 042stab061.2?

Не наблюдалась такая же проблема с сетью как у меня?

Как можно еще определить почему падает есть? Падает в разное время, на EX6 упало, когда трафика вообще не было.

Кстати попался EX6 (E1245 V2 и жестяки, которые отработали всего 10 часов)

Andreyka
На сайте с 19.02.2005
Offline
822
#9

А еще можно было не сносить Debian а поставить в него ядро от rhel6

Не стоит плодить сущности без необходимости
P
На сайте с 16.03.2009
Offline
144
#10
Andreyka:
А еще можно было не сносить Debian а поставить в него ядро от rhel6

Как раз его и ставил http://wiki.openvz.org/Download/kernel/rhel6/042stab062.2

Since 042stab061.2:
Rebase to 2.6.32-279.9.1.el6 RHEL6.3 kernel

На CentOS (тоже rhel6/042stab062.2) аптайм уже 20 часов. Нагрузку на сеть тоже проверил, перегнал около 100Гб - ничего не упало.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий