首页 > 数据库 >GBase 8a数据库故障排查思路

GBase 8a数据库故障排查思路

时间:2024-09-19 14:26:44浏览次数:1  
标签:gcmonit log gcluster 数据库 8a gbase 排查 进程 GBase

GBase 8a数据库故障排查思路

一、 监控进程
集群默认运行 gcmonit 进程用来监控 gcluster、gcware、gcrecover、gcmmonit、gbase、syncserver 进程,当这些进程意外 down 掉,gcmonit 进程会自动将这些进程拉起。同时,gcmmonit 进程又会监控gcmonit 进程,当 gcmonit 进程 down 掉,gcmmonit 进程会将 gcmonit 进程拉起。两个进程互相监控,互为保险。所以正常情况下,各节点的进程应持续运行,不会 down 掉。

发现有进程 down 掉(或服务 close),说明 gcmonit 进程已经无法拉起相应进程,首先运维人员应确认 gcmonit 进程和 gcmmonit 进程是否工作正常。
[gbase@181 ~]$ ps -ef |grep ‘gcmm
gbase 27907 26577 0 18:16 pts/1 00:00:00 grep --color=auto gcmm

gbase 36942 1 0 9 月 09 ? 01:14:57 /opt/gbase/gcluster/server/bin/gcmonit --start
gbase 36944 1 0 9 月 09 ? 00:14:40 /opt/gbase/gcluster/server/bin/gcmmonit --start
通过上述方式确认 gcmonit 进程和 gcmmonit 进程已启用,但节点进程还是无法运行,这时就需要人为干预排查问题。

可尝试重启相关进程。
[gbase@185 ~]$ gcluster_services all restart
Stopping GCMonit fail! Info: [gcmonit] share memory get error
Stopping gbase : [ OK ]
Stopping syncserver : [ OK ]
Starting gbase : [ FAIL ]
[gbase]Fail Info: start service timeout
Starting syncserver : [ OK ]
Starting GCMonit success!

此例中,重启各进程后发现 gbase 进程仍然无法启动,此时可参考相关日志进行故障排查。

二、 关键日志
1、System 日志:
记录数据库服务启动、停止等重要操作,并可记录数据库服务宕机等异常情况的程序堆栈,可辅助开发人员查错。默认开启。
System 日志分类及默认存放位置:
gcluster 系统日志: $GCLUSTER_BASE/log/gcluster/system.log
gnode 系统日志: $GBASE_BASE/log/gbase/system.log
gcware 系统日志: $GCLUSTER_BASE/log/gcluster/gcware_system.log
gcrecover 系统日志: $GCLUSTER_BASE/log/gcluster/gcrecover_system.log

2、Express 日志
记录 express 引擎内部执行过程中的一些重要信息,包括异常等。用于排查错误。默认开启。
gcluster 层 express 日志: $GLUSTER_BASE/log/gcluster/express.log
gnode 层 express 日志: $GBASE_BASE/log/gbase/express.log

三、 其他
如果日志中无故障提示,可从以下角度考虑解决:

1、License 已过期
Gcluster 节点:
进入/opt/gbase/gcluster/server/bin 目录,执行如下命令:
[gbase@183 bin]$ ./gclusterd
220915 2:00:14 [Note] begin to check license.
220915 2:00:14 [ERROR] license file is invalid!
提示以上信息说明 License 已过期。需要重新申请 license。
Gnode 节点:
进入/opt/gbase/gnode/server/bin 目录,执行如下命令:
[gbase@183 bin]$ ./gbased
220915 2:03:48 [Note] begin to check license.
220915 2:03:48 [ERROR] license file is invalid!
以上提示信息说明 License 已过期。需要重新申请 license 并重新注册。

2、内存配置参数过大
根据 GBase 8a 数据库的内存管理机制,默认情况下数据库的总内存占用应小于等于物理内存的 80%。
如果设置上超过该限制即为内存配置不合理。数据库进程无法启用。
在 gbase_8a_gbase.cnf 文 件 中 , gbase_heap_data+gbase_heap_temp+gbase_heap_large> 物 理 内 存×gbase_memory_pct_target,即视为内存设置过大,超过限制。数据库服务无法自动启动。

gbase_memory_pct_target=0.8

gbase_heap_data=17G

gbase_heap_temp=250M

gbase_heap_large=256M

3、操作权限过大
[root@redhat3 config]# ll
-rw-r--r-- 1 root root 6144 11 月 10 16:35 gbase_20141110_20150210.lic
-rwxrwxrwx 1 gbase gbase 1392 2 月 8 10:44 gbase_8a_gbase.cnf
-rw-rw-r-- 1 gbase gbase 2048 7 月 29 2014 gbase_host.cnf
如:gbase_8a_gbase.cnf 配置文件的权限设置为 777,不符合数据库安全规范,数据库无法启动。建议该值设置为 640,即“-rw-r-----”。

4、配置文件参数值格式错误
如:gbase_heap_temp=250.6M
在配置文件中,带有字节单位的参数值是不允许出现小数的。

以上是数据库状态出现问题时的一些解决思路,运维人员需要在工作中不断实践和积累。

标签:gcmonit,log,gcluster,数据库,8a,gbase,排查,进程,GBase
From: https://www.cnblogs.com/gbase/p/18420501

相关文章

  • GBase 8a数据库关键日志
    GBase8a关键日志1、System日志:记录数据库服务启动、停止等重要操作,并可记录数据库服务宕机等异常情况的程序堆栈,可辅助开发人员查错。默认开启。System日志分类及默认存放位置:gcluster系统日志:$GCLUSTER_BASE/log/gcluster/system.loggnode系统日志:$GBASE_BASE/log/gba......
  • GBase 8a MPP Cluster 数据库产品的巡检
    GBase8aMPPCluster产品的巡检一般包含以下几个方面工作:1、检查数据库的接入情况2、检查数据库状态3、检查Core文件或dump文件4、检查系统情况(1)查看数据库连接巡检的第一步就是要验证数据库是否可访问。数据库可访问代表数据库客户端和服务端的网络端口和服务正常。......
  • GBase 8a数据库集群部署硬件环境需求
    GBase8aMPPCluster具有多样化的平台选择,可完全使用低成本的x86架构的PCServer;也支持云平台、虚拟机环境的部署。随着国产服务器、国产CPU的发展,也支持在申威、龙芯、兆芯、鲲鹏、飞腾等的国产服务器上部署。GBase8aMPPCluster支持64位计算机操作系统平台上,支......
  • 南大通用GBase 8s 高可用性集群搭建部署指南(上)
    在企业级应用中,数据库的稳定性和可用性是至关重要的。GBase8s作为一款高性能的国产数据库系统,提供了HAC(高可用性集群)功能,确保业务连续性和数据安全性。本篇将详细介绍如何在主节点和辅节点上安装并配置GBase8s,为搭建HAC集群打下坚实基础。1、安装GBase8s数据库首先,我们需要分别......
  • 南大通用GBase 8s 高可用集群搭建部署指南(下)
    在上篇文章中,我们完成了GBase8sHAC集群搭建的初步配置。本文将重点介绍如何配置主节点和辅节点之间的互信关系,以及如何搭建并验证HAC集群的状态。1、配置互信互信是集群节点间通信的基础。我们可以通过配置.rhosts文件或使用REMOTE_SERVER_CFG参数两种方式来实现互信。根据企业的......
  • Redis大key有什么危害?如何排查和处理?
    目录标题什么是bigkey?bigkey是怎么产生的?有什么危害?如何发现bigkey?1、使用Redis自带的--bigkeys参数来查找。2、使用Redis自带的SCAN命令3、借助开源工具分析RDB文件4、借助公有云的Redis分析服务如何处理bigkey?这个问题在面试中还是比较容易遇到的,......
  • Flink-cdc丢失数据排查
    一、获取任务信息任务id:i01f51582-d8be-4262-aefa-000000任务名称:ods_test1234丢失的数据时间:2024-09-1609:28:47 二、数据同步查看日志1、筛选日志筛选2024-09-1609:28:47到5分钟后数据2、查找快照id,筛选内容Committedsnapshot7258609197164498019(BaseRowDelt......
  • Redis 突然变慢了如何排查并解决?
    当Redis突然变慢时,可以通过一系列步骤来排查并解决问题。以下是一个详细的排查和解决流程:1.监控Redis性能指标使用Redis自带的工具:如redis-cli工具,通过执行INFO命令来查看Redis的关键性能指标,如内存占用情况、命令执行时间、连接数等。使用监控工具:如RedisInsight等,这些工具能提供......
  • Ubuntu 64系统编译android arm64-v8a 的openssl静态库libssl.a和libcrypto.a
    #!/bin/bash#Cross-compileenvironmentforAndroidonARM64andx86##ContentslicensedunderthetermsoftheOpenSSLlicense#http://www.openssl.org/source/license.html##Seehttp://wiki.openssl.org/index.php/FIPS_Library_and_Android#andhttp:......
  • go 使用pprof 进行问题排查
    1.main代码中添加pprof引用(前提是web应用比如kartos这里服务起来的端口为8000)_"net/http/pprof"默认init里面有添加2.使用curl下载profile文件通过命令生产profile文件,方便从生产环境中导出profile文件/debug/pprof/profile?seconds=30curl-oprofil......