首页 > 其他分享 >keepalived故障

keepalived故障

时间:2023-12-28 14:55:06浏览次数:22  
标签:arp x.3 主机 keepalived vip 故障 VIP

背景说明

三个 keepalived 服务组成一个高可用环境。风和日丽的下午突然通知某个生产环境 vip 不通,使用承载 vip 的主机测试服务是正常。进而推断 keepalived 导致的问题。。。

三个主机IP地址分别是:x.x.3.17x.x.3.18x.x.3.19
VIP地址是: x.x.3.20,该地址绑定在 x.x.3.18 主机上

排查过程

  1. 三台主机 ping VIP ,有个两台主机不通(x.x.3.17, x.x.3.19),只有一台(x.x.3.18)承载VIP主机正常

  2. 三台主机查看防火墙都是没有问题的

  3. (x.x.3.17, x.x.3.19)主机查看 arp -n | grep VIP arp缓存表。发现vip对应的mac地址(x.x.3.19主机)不对。这个mac所在主机是没有 VIP 地址的,所以 ping vip 不通

  4. (x.x.3.17, x.x.3.19)主机删除arp缓存表 arp -d VIP,抓包显示很快 x.x.3.19 主机回包

    img

  5. 再次查看 arp -n | grep VIP ,发现还是没有学习到正确的mac。

  6. 【临时修复方法】手工设置arp缓存表 arp -s x.x.3.20 fa:16:3e:09:c8:8c

  7. 推测与(主机\交换机)有关,后续找主机同事一起排查。主机是openstack虚拟机,从宿主机上面看到 VIP 绑定在 x.x.3.19 主机上

    img

  8. 重启keepalived恢复正常。基本上确认了,Free arp 包在底层没有收到引起 vip 还记录在旧主上。

  9. 主机同事反馈 keepalived 服务建议设置上 grap_master_delaygarp_master_refresh 参数。持续发生 Free arp

测试参数

说明: 测试主机不是生产环境的,所以IP地址不一致

  1. keepalived不含上述两个参数测试结果 切换vip后有发free arp包,后续没有继续发

    img

    img

  2. keepalived含上述两个参数测试结果 切换vip后有发free arp包,后续继续发free arp数据包

    img
    img
    img

测试结果:配置上两个参数会持续发送free arp包的

标签:arp,x.3,主机,keepalived,vip,故障,VIP
From: https://www.cnblogs.com/jiaxzeng/p/17932719.html

相关文章

  • 监控易:与国产化服务器及网络设备厂家共创性能监控与故障预测新篇章
        在当今数字化时代,各行各业对国产化服务器和网络设备的需求日益增长。为了满足这一需求,监控易一直致力于提供最先进的IT性能监控和故障预测技术。近几年,监控易先后与国内各大服务器厂家和网络设备厂家达成战略合作,共同提升设备性能、增强服务质量,为用户带来更优质的体验......
  • TiDB故障处理之让人迷惑的Region is Unavailable
    背景最近某集群扩容了一批物理机,其中TiKV节点有6台机器12个实例,同时调整了label设置增加了一层机柜级容灾。因为前期做了比较充分的准备工作,到了变更窗口只等着执行scale-out就行,操作过程也很顺利,很快就把所有节点都扩进去了,检查完各实例的运行状态,确保region已经开始正常调......
  • Kafka 再均衡详解:实现消费者组的负载均衡和故障转移(十二)
    在Kafka中,再均衡(Rebalancing)是指在消费者组内部发生变化时,Kafka会重新分配分区给消费者,以实现负载均衡和故障转移的目的。再均衡是Kafka实现高可用性和可扩展性的重要机制之一。再均衡的场景消费者加入、消费者退出和分区变化等情况。消费者加入:当新的消费者加入消费者组......
  • 优化线上故障排查与性能问题的方法
    在面对线上故障和性能问题时,迅速而准确的排查是至关重要的。以下是一些优化排查的方法,帮助更有效地解决短时间内产生大量timewait请求的问题。1.监控和日志分析通过监控系统实时监控应用的指标,特别关注与网络通信和连接有关的指标。检查日志以找到与timewait请求相关的信息,可......
  • 故障时间线-matlab三联错二联错
    20231211:matlab三联报错20231215:卸载并重装MCR及其补丁中间试过重打MCR补丁、重新封装matlab代码、删除临时目录、将mclmcrrt9_2.dll添加到sysWOW64、重新引用MWARRAY.dll及其他几个文件,都不好使橘子Jane......
  • Redis哨兵内存碎片化故障处理
    背景介绍近期研发同学反馈业务响应波动厉害,怀疑是Redis操作key比较慢的缘故。由于该环境是我一手安装部署的,我将进行问题排查。Redis环境以及业务环境都已经使用Prometheus进行了监控。环境说明我们有两套一样的环境来服务不同的客户,另外一套环境中业务一直平稳运行,Redis并没......
  • 服务案例|CIS数据库故障问题
    ......
  • Keepalived 安装 配置 Nginx 高可用
    Keepalived安装配置Nginx高可用Keepalived安装yuminstall-ykeepalived配置文件位置/etc/keepalived/keepalived.conf配置nginx高可用vi/etc/keepalived/keepalived.confvrrp_scriptchk_gluster{script"/usr/bin/systemctlis-activeglusterd"int......
  • Keepalived 高可用详解
    Keepalived详解1、Keepalived介绍​ Keepalived是一个基于VRRP协议来实现LVS服务高可用方案,可以利用其来避免单点故障。一个LVS服务会使用2台服务器运行Keepalived,一台为主服务器MASTER,另一台为备份服务器BACKUP,但是对外表现为一个虚拟IP,主服务器会发送特定的消息给备份服务......
  • MySQL 主从故障排查
    MySQL主从复制是一种常见的数据库架构,用于提高数据库的可用性和性能。但是,在实际应用中,主从故障是难免的。本文详细介绍一套MySQL主从故障排查方案。一确认主从状态首先要确定主从复制的状态,可以通过执行以下命令来检查:1)SHOWMASTERSTATUS;命令用于显示主库的状态信息,包括以下列......