现象
环境:redhat linux 5.11,2.6.18-398.el5,数据库主机。
最初发现这台机器ntp同步异常,时间会越来越慢,执行ntpupdate手动同步过一段时间也会失效,并且登录明显感觉命令执行响应慢,初步判断是网络响应问题。
分析
分析日志发现,有很多Tx Unit Hang报错
grep -i TX /var/log/messages
Mar 28 07:59:45
hostname kernel: igb 0000:21:00.1: Detected Tx Unit Hang
Mar 28 07:59:45
hostname kernel: Tx Queue <0>
Mar 28 07:59:49
hostname kernel: igb 0000:21:00.1: Detected Tx Unit Hang
Mar 28 07:59:49
hostname kernel: Tx Queue <0>
Mar 28 08:48:06
hostname kernel: igb 0000:21:00.1: Detected Tx Unit Hang
Mar 28 08:48:06
hostname kernel: Tx Queue <0>
Mar 28 11:54:43
hostname kernel: igb 0000:21:00.1: Detected Tx Unit Hang
Mar 28 11:54:43
hostname kernel: Tx Queue <0>
了解后发现是使用了pcie网卡的问题,redhat官网也提到这个是已知问题,内核对网卡芯片存在兼容性问题,可以通过升级内核解决。igb message "Detected Tx Unit Hang" appears on a Red Hat Enterprise Linux 5 system
但是这台主机是数据库特定需求版本,无法升级内核。和网卡厂商沟通也无驱动可更新,因为系统版本太老不支持。
根据现象分析,只是卡顿,并没有完全断开,可能是pcie的网卡使用了msi中断,导致这个问题,可以尝试禁用msi中断。
处理
编辑linux的启动配置文件,设置内核启动不启用msi中断。
vi /boot/grub/grub.conf 在 kernel 行末尾空格添加 pci=nomsi,然后重启。
观察发现此方法能有效解决问题
标签:kernel,Tx,中断,28,网卡,Pcie,Detected,Unit From: https://blog.51cto.com/liuhx/6046619