首页 > 其他分享 >F5负载均衡设备故障处理怎么办?

F5负载均衡设备故障处理怎么办?

时间:2023-01-02 19:33:20浏览次数:41  
标签:状态 负载 F5 故障 新备 36.6 172.20 设备

  2022年12月23日,我司技术工程师在进行第四季度设备巡检时,就在客户公司发现了一个负载均衡设备故障。

确认问题

  我们发现IP为“172.20.36.6”的一台F5负载均衡设备,状态出现异常,出现所有的业务健康检查均未通过、设备HA状态异常现象,如下图所示:

 经确认,172.20.36.6与172.20.36.5两台设备互为主备:在故障出现前,172.20.36.6为主机,172.20.36.5为备机;目前,172.20.36.6状态异常转为备机,172.20.36.5成为新的主机。

 

解决方案

 经与客户协商,从客户测试环境撤下一台同型号的F5设备,将该设备当作新的备机来使用。

操作流程如下:

1.将新备机在测试环境的配置备份下来,存档备用:

2.将新设备从原机柜断电下架,重新上架到对应机柜;

3.为新设备上电并重新安装系统,将系统更新到与主机172.20.36.5相同的版本

4.为新设备配置好基础的网络配置,如设备管理IP、管理员账户等;

5.在新设备上将设备手动锁定为“强制备机”状态,避免后续发生自动切换;

6.将原备机的心跳线、管理线、业务线拔掉;

7.将原备机拔下来的心跳线、管理线接到新备机上;

8.使新备机与主机完成HA关系的建立;

9.HA建立完成后,将配置从主机同步到新备机上;

10.配置同步完成,将业务线接到新备机上;

11.检查新备机的状态,确认新备机状态正常;线路状态正常、业务健康检查正常;

12.解除备机的“强制备机”状态。

 主备的问题已基本解决,后续再手动进行一次切换测试即可。

 

原因分析

 在确保生产环境的设备主备状态正常后,对故障设备进行原因分析:

1.WEB页面检查设备,发现172.20.36.6的业务端口出现down的状态:

2.现场检查设备,看见设备除了管理口外的端口都没有亮灯:

3.目前分析可能存在的问题有三种:

①线路或者光模块存在异常;

②设备系统存在异常;

③设备硬件存在异常。

 由于本次故障四个端口同时出现问题,故排除了第①种可能。

4.进行重启设备,发现设备在重启后故障现象依旧存在,且设备在命令行下一直有异常日志弹出:

Bcm56xxd是控制网口的进程,日志条目一直显示该进程正在重新启动,目前问题基本定位到是由于该进程的异常引起的;

5.对设备进行重装系统,发现设备在完成系统重装后,仍然一直在弹出上述日志,因此可以排除是软件层面的异常,排除第②种可能;

6.综上所述,确定是硬件层面的故障导致了问题的出现。

 

得出结论

  管理IP为172.20.36.6的原设备,硬件存在异常,导致所有网口出现问题。

 本期内容已结束,如果有问题可以留言至为小壳,关注小壳,带你看不一样的IT世界,我们下期再见!

 

标签:状态,负载,F5,故障,新备,36.6,172.20,设备
From: https://www.cnblogs.com/Ben-dumm/p/17020392.html

相关文章