Здравствуйте,есть 2 сервера Dell CS24-TY, конфигурация идентичная, за исключением процессоров.
Сразу же после установки в стойку возникла проблема - с разной периодичностью тухнет сеть на пару секунд, после чего благополучно поднимается.
Последнее время проблема стала совсем невыносимой - тухнет 1-2 раза в минуту.
На серверах используется OpenVZ, ОС - CentOS 6.4 x64
#dmesg
[ 2862.857475] igb: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX/TX
[ 2862.859869] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 2873.734927] venet0: no IPv6 routers present
Вначале решил, что проблема аппаратная. Отключил интегрированные сетевые карты в биосе (82576), добавил двухпортовые Intel ET - без изменений.
Заменили сетевой кабель, один из серверов переключили на другой коммутатор - без изменений.
Дальше пошли шаманские действия программно.
сделал pcie_aspm=off - без изменений
Установлены последние драйвера с сайта Intel - 4.3.0 - без изменений
Установлены предпоследние драйвера оттуда же - 4.2.16 - та же картина
модуль исправно подгружается:
# lsmod | grep igb
igb 169540 0
i2c_algo_bit 5951 1 igb
i2c_core 31084 3 igb,i2c_algo_bit,i2c_i801
dca 7101 2 igb,ioatdma
Прерывания исправно расбрасываются по ядрам
# cat /proc/interrupts
CPU0 CPU1 CPU2 CPU3 CPU4 CPU5 CPU6 CPU7 CPU8 CPU9 CPU10 CPU11 CPU12 CPU13 CPU14 CPU15
0: 9655444 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-edge timer
1: 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-edge i8042
8: 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-edge rtc0
9: 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-fasteoi acpi
20: 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-fasteoi ehci_hcd:usb1
21: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-fasteoi uhci_hcd:usb5, uhci_hcd:usb8
22: 49 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-fasteoi uhci_hcd:usb4, uhci_hcd:usb7
23: 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IO-APIC-fasteoi ehci_hcd:usb2, uhci_hcd:usb3, uhci_hcd:usb6
49: 1641762 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ahci
50: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
51: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
52: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
53: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
54: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
55: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
56: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
57: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge ioat-msix
58: 62 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge eth0
59: 1714175 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PCI-MSI-edge eth0-TxRx-0
NMI: 1345 588 535 577 840 650 566 584 653 418 403 378 454 304 353 245 Non-maskable interrupts
LOC: 5556310 5617510 4624923 5471736 4722008 3370136 3221820 3086557 6528969 4927867 4109468 4203944 4265721 2883662 2879641 1795741 Local timer interrupts
SPU: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Spurious interrupts
PMI: 1345 588 535 577 840 650 566 584 653 418 403 378 454 304 353 245 Performance monitoring interrupts
IWI: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 IRQ work interrupts
RES: 191024 136528 118366 116343 162549 103329 96613 103240 138982 100208 92375 90231 111924 97358 102949 90694 Rescheduling interrupts
CAL: 210 345 350 342 655029 348 350 340 343 319 331 349 343 331 333 328 Function call interrupts
TLB: 5618 4396 1984 1249 4482 3795 1470 720 5779 14614 9759 5020 4076 13520 9287 4575 TLB shootdowns
TRM: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Thermal event interrupts
THR: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Threshold APIC interrupts
MCE: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Machine check exceptions
MCP: 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 Machine check polls
Подбросили статью, где у человека подобная проблема - http://www.linux.org.ru/forum/admin/8386690
Не решено, или решил, но не отписался.
В какую сторону еще покопать можно?