VSAN集群主机报"检测到物理网卡错误率较高"告警:
1、使用命令检测物理网卡的丢包情况:esxcli network nic stats get -n
vmnicX。也可以通过主机->监控->VSAN->性能->物理适配器->选择物理适配器观察丢包率和吞吐量情况。
例如: NIC statistics for vmnic0
...
Receive FIFO errors: 505563312
Receive missing errors: 34871289
..
2、检查主机网卡的固件和驱动版本是否最新,当前服务器的驱动和固件都是最新的。
3、尝试增加物理 NIC 上的 Rx 缓冲区环大小来避免 FIFO 或 Missed 错误,命令:esxcli network nic ring current
set -n vmnicX -r 1048。
参考KB:https://kb.vmware.com/s/article/50121760?lang=en_us
shvsan06node02节点配置过,且运行一段时间观察后丢包情况任然会增加,修改网卡缓存区方法无法解决该问题。
4、查询相关报错案例,发现在vSphere7版本中有个已知问题,针对Intel 82599/X540/X550 网卡上的网络性能存在吞吐量降低问题。且之前出现相关网卡错误率较高报错时,全是06集群中82599型号网卡的主机,判断为网卡吞吐量降低导致的网卡错误率较高。详细请看vSphere 7.0的发行文档:https://docs.vmware.com/cn/VMware-vSphere/7.0/rn/vsphere-esxi-vcenter-server-70-release-notes.html,过滤82599.
5、根据文档的解决办法:要实现与 vSphere 6.7 相同的网络性能,可以使用模块参数禁用队列对,要禁用队列对,请运行以下命令:
# esxcli system module parameters set -p
"QPair=0,0,0,0..."-m ixgben
运行命令后,请重新引导主机,
6、今天对shvsan06node01主机做了该配置,先观察运行一段时间确保无影响后,再找时间针对82599网卡主机(02、03、05、07、08、09、10)依次做一下该配置。
标签:82599,错误率,主机,网卡,VSAN,物理 From: https://blog.51cto.com/u_16206879/7081156