KingbaseES V8R3集群运维案例---failover切换故障分析

时间：2023-09-18 16:24:47浏览次数：42

标签：V8R3 log 运维 failover cluster kingbasecluster 日志数据库

案例说明：
KingbaseES V8R3集群主库数据库服务重启后，failover切换失败，分析failover失败的具体原因。
适用版本：
KingbaseES V8R3

一、集群架构

      node13----->主库（primary）
      node25----->管理备库（standby）
      node58----->备库（standby）

二、故障现象

1主2备集群， 172.31.*.13 172.31.*.25 172.31.*.58 。13是主；主机服务器内存不足报警，集成重启主服务器尝试解决，数据库未成功切换；
应用访问异常，报错无法访问数据库。

三、故障分析
搜集集群节点故障发生时间点前后的系统、集群及数据库日志：

1、系统日志：message等
2、集群日志：cluster.log、failover.log、recovery.log等
3、数据库日志：sys_log等

结合故障时间点前后，分析对应日志，综合判断故障原因。

日志分析：
1、node25节点，cluster.log获取，在“2023-04-27 19:20:42watchdog node state changed from [INITIALIZING] to [MASTER]“，kingbasecluster重启后，成为master节点，并且存在多次kingbasecluster服务重启。

2、node13节点，cluster.log获取，在”2023-04-27 19:21:07:successfully joined the watchdog cluster as standby node“，kingbasecluster重启后，成为standby节点，在后面的时间点，又多次重启kingbasecluster服务。

3、从node13的系统日志message获取，在“Apr 27 19:21:49 localhost [/bin/bash]: [sys_ctl -D data stop]”，执行数据库关库的命令，从对应的cluster.log及sys_log看，此时间点都无法连接数据库服务。
4、从cluster.log获取，在”2023-04-27 19:25:25: pid 16083: LOG: health checking retry count 10”，node25节点检测到连接主库数据库服务失败超过阈值（10）后，应该触发failover切换。
5、但是在“2023-04-27 19:25:25: pid 16083: LOG: failed to connect to watchdog command server socket”，连接kingbasecluster失败，导致无法触发failover切换。
6、在备库cluster.log的日志中相同时间点，出现同样的日志信息。

从以上日志分析，在“2023-04-27 19:21:49”，node13（数据库primary）执行关库服务后，在“2023-04-27 19:25:25”时间点，kingbasecluster检测数据库服务连接失败超过阈值后，触发failover切换，但是连接kingbascluster服务失败，导致切换未正常执行。从node13、node25节点cluster.log获悉，kingbasecluster服务多次重启导致主库数据库服务down后，未产生failover切换。

以下为主库重启后，数据库sys_log日志：

故障分析：
系统参数：RemoveIPC=yes|no

一些操作系统中RemoveIPC的默认值是yes。操作系统配置中RemoveIPC参数设置为yes，数据库运行过程中出现宕机，并显示如下日志消息。
FATAL: semctl(1463124609, 3, SETVAL, 0) failed: Invalid argument

原因分析
当RemoveIPC参数设置为yes时，操作系统会在对应用户退出时删除IPC资源（共享内存和信号量），从而使得KingbaseES服务器使用的IPC资源被清理，引发数据库宕机。
处理分析
设置配置文件/etc/systemd/logind.conf中的参数RemoveIPC参数为no。

四、问题总结
此次故障，是由于主机系统环境RemoveIPC=yes导致集群宕机（数据库服务及kingbasecluster服务），kingbasecluster在fatal状态就会导致退出进程，退出后就会重启。周而复始。

[kingbase@node102 bin]$ cat /etc/systemd/logind.conf|grep -i remove
RemoveIPC=no

对于生产环境下数据库在部署前，需要检查此系统参数的配置，避免触发数据库宕机的故障。

标签：V8R3,log,运维,failover,cluster,kingbasecluster,日志,数据库
From： https://www.cnblogs.com/kingbase/p/17561155.html

KingbaseES V8R3集群运维案例之---流复制异步同步及全同步模式配置
案例说明：通过案例描述KingbaseESV8R3集群异步、同步及全同步强一致性配置，本案例为一主二备的架构。适用版本：KingbaseESV8R3集群架构：集群复制配置参数说明：1）sync_flag[kingbase@node101bin]$cat../etc/HAmodule.conf|grep-isync_#1->synchronouscluster,0->async......
kingbaseES V8R3集群运维案例之---集群部署前后ssh端口修改
kingbaseESV8R3集群运维案例之---集群部署前后ssh端口修改案例说明：kingbaseESV8R3集群部署读写分离的集群是使用ssh的默认端口（22）部署，当改为非默认端口时，在部署中或部署后会因kingbasecluster脚本ssh的连接而失败，现提出以下解决方案。适用版本：KingbaseESV8R31......
KingbaseES V8R6运维案例之---数据库resetwal后启动失败
KingbaseESV8R6运维案例之---数据库resetwal后启动失败案例说明：KingbaseESV8R6集群触发failover切换后，原主库自动recovery失败，现在需要将原主库启动为单实例的数据库运行，在执行了resetwal后，启动数据库失败。sys_log记录以下故障信息：适用版本：KingbaseESV8R6......
KingbaseES V8R6集群运维案例之---访问系统表unrecognized token- false故障
KingbaseESV8R6集群运维案例之---访问系统表‘unrecognizedtoken:"false"’故障案例说明：KingbaseESV8R6集群在升级补丁后，主备库访问系统表出现‘unrecognizedtoken:"false"’故障，如下图所示：适用版本：KingbaseESV8R3/R6一、问题分析1、连接数据库执行系统表访问（如......
KingbaseES V8R6集群运维案例--cluster模式备份sys_backup.sh init故障
KingbaseESV8R6集群运维案例--cluster模式备份sys_backup.shinit故障案例说明：通过脚本方式部署KingbaseESV8R6集群后，在‘cluster’模式备份，执行sys_backup.shinit时，出现“cannotcontain//for”log-path"option"错误，但是在‘single’模式下备份，无此错误。故障信息......
KingbaseES V8R6集群运维案例之---修改ssh端口后脚本创建互信
案例分析：在KingbaseESV8R6集群部署时，需要建立节点之间ssh互信（或者使用securecmdd工具），在有的生产环境，为了安全起见会修改ssh的默认端口；KingbaseESV8R6集群部署提供了脚本用于创建ssh互信，如果修改了系统的ssh端口号后，也需要修改对应的脚本。适用版本：KingbaseESV8R6一、集群节......
K8S运维必备排查手册
一、Pod相关问题及排查 1.Pod无法启动，如何查找原因？使用kubectldescribepod[pod_name]-n[namespace_name]命令查看该Pod的状态信息，检查容器的状态和事件信息，判断是否出现问题。使用kubectllogs[pod_name]-n[namespace_name]命令查看该Pod容器的......
Linux企业运维人员最常用150个命令汇总2
Linux企业运维人员最常用150个命令汇总收录在日常运维杂烩系列命令功能说明线上查询及帮助命令(2个)man查看命令帮助，命令的词典，更复杂的还有info，但不常用。help查看Linux内置命令的帮助，比如cd命令。文件和目录操作命令(18个)ls......
常见中间件的运维
MysqlMysql常见中间件是用于管理和优化Mysql数据库集群的工具或软件。这些中间件可以提供负载均衡、高可用性、性能优化等功能。以下是关于部署和维护常见mysql中间件的一些指导：ProxySQL：部署：根据官方文档下载和安装ProxySQL配置ProxySQL实例，包括监听端口、数据库后......
数字孪生技术在智慧运维中能够发挥什么作用？
数字孪生技术在智慧运维中能够发挥多方面的作用，从提高效率到降低成本，再到改善决策过程，都有着显著的影响。下面我们将深入探讨数字孪生技术在智慧运维领域的多个应用领域。首先，通过数字孪生技术可以根据现实中的设备搭建3D场景，通过实时数据同步，运维人员可以更准确地监测设备的健......

KingbaseES V8R3集群运维案例---failover切换故障分析

相关文章

赞助商

阅读排行