首页 > 数据库 >GBase 8a数据库故障排查思路

GBase 8a数据库故障排查思路

时间:2025-01-08 19:34:49浏览次数:1  
标签:gcmonit log gcluster 数据库 8a gbase 排查 进程 GBase

一、 监控进程
集群默认运行 gcmonit 进程用来监控 gcluster、gcware、gcrecover、gcmmonit、gbase、syncserver 进程,当这些进程意外 down 掉,gcmonit 进程会自动将这些进程拉起。同时,gcmmonit 进程又会监控gcmonit 进程,当 gcmonit 进程 down 掉,gcmmonit 进程会将 gcmonit 进程拉起。两个进程互相监控,互为保险。所以正常情况下,各节点的进程应持续运行,不会 down 掉。

发现有进程 down 掉(或服务 close),说明 gcmonit 进程已经无法拉起相应进程,首先运维人员应确认 gcmonit 进程和 gcmmonit 进程是否工作正常。
[gbase@181 ~]$ ps -ef |grep ‘gcmm
gbase 27907 26577 0 18:16 pts/1 00:00:00 grep --color=auto gcmm

gbase 36942 1 0 9 月 09 ? 01:14:57 /opt/gbase/gcluster/server/bin/gcmonit --start
gbase 36944 1 0 9 月 09 ? 00:14:40 /opt/gbase/gcluster/server/bin/gcmmonit --start
通过上述方式确认 gcmonit 进程和 gcmmonit 进程已启用,但节点进程还是无法运行,这时就需要人为干预排查问题。

可尝试重启相关进程。
[gbase@185 ~]$ gcluster_services all restart
Stopping GCMonit fail! Info: [gcmonit] share memory get error
Stopping gbase : [ OK ]
Stopping syncserver : [ OK ]
Starting gbase : [ FAIL ]
[gbase]Fail Info: start service timeout
Starting syncserver : [ OK ]
Starting GCMonit success!

此例中,重启各进程后发现 gbase 进程仍然无法启动,此时可参考相关日志进行故障排查。

二、 关键日志
1、System 日志:
记录数据库服务启动、停止等重要操作,并可记录数据库服务宕机等异常情况的程序堆栈,可辅助开发人员查错。默认开启。
System 日志分类及默认存放位置:
gcluster 系统日志: $GCLUSTER_BASE/log/gcluster/system.log
gnode 系统日志: $GBASE_BASE/log/gbase/system.log
gcware 系统日志: $GCLUSTER_BASE/log/gcluster/gcware_system.log
gcrecover 系统日志: $GCLUSTER_BASE/log/gcluster/gcrecover_system.log

2、Express 日志
记录 express 引擎内部执行过程中的一些重要信息,包括异常等。用于排查错误。默认开启。
gcluster 层 express 日志: $GLUSTER_BASE/log/gcluster/express.log
gnode 层 express 日志: $GBASE_BASE/log/gbase/express.log

三、 其他
如果日志中无故障提示,可从以下角度考虑解决:

1、License 已过期
Gcluster 节点:
进入/opt/gbase/gcluster/server/bin 目录,执行如下命令:
[gbase@183 bin]$ ./gclusterd
220915 2:00:14 [Note] begin to check license.
220915 2:00:14 [ERROR] license file is invalid!
提示以上信息说明 License 已过期。需要重新申请 license。
Gnode 节点:
进入/opt/gbase/gnode/server/bin 目录,执行如下命令:
[gbase@183 bin]$ ./gbased
220915 2:03:48 [Note] begin to check license.
220915 2:03:48 [ERROR] license file is invalid!
以上提示信息说明 License 已过期。需要重新申请 license 并重新注册。

2、内存配置参数过大
根据 GBase 8a 数据库的内存管理机制,默认情况下数据库的总内存占用应小于等于物理内存的 80%。
如果设置上超过该限制即为内存配置不合理。数据库进程无法启用。
在 gbase_8a_gbase.cnf 文 件 中 , gbase_heap_data+gbase_heap_temp+gbase_heap_large> 物 理 内 存×gbase_memory_pct_target,即视为内存设置过大,超过限制。数据库服务无法自动启动。

gbase_memory_pct_target=0.8

gbase_heap_data=17G

gbase_heap_temp=250M

gbase_heap_large=256M

3、操作权限过大
[root@redhat3 config]# ll
-rw-r--r-- 1 root root 6144 11 月 10 16:35 gbase_20141110_20150210.lic
-rwxrwxrwx 1 gbase gbase 1392 2 月 8 10:44 gbase_8a_gbase.cnf
-rw-rw-r-- 1 gbase gbase 2048 7 月 29 2014 gbase_host.cnf
如:gbase_8a_gbase.cnf 配置文件的权限设置为 777,不符合数据库安全规范,数据库无法启动。建议该值设置为 640,即“-rw-r-----”。

4、配置文件参数值格式错误
如:gbase_heap_temp=250.6M
在配置文件中,带有字节单位的参数值是不允许出现小数的。

以上是数据库状态出现问题时的一些解决思路,运维人员需要在工作中不断实践和积累。

标签:gcmonit,log,gcluster,数据库,8a,gbase,排查,进程,GBase
From: https://www.cnblogs.com/ataoxz/p/18642997

相关文章

  • GBase DAY(date) 函数详解
    DAY 是一个用于从日期或日期时间表达式中提取日(天)部分的日期和时间函数。它在数据分析、报告生成、数据清洗、时间序列处理以及各种需要处理和转换日期数据的场景中非常实用。通过 DAY 函数,用户可以轻松地获取日期的天数部分,从而简化日期相关的计算和比较。1. DAY(date) 函......
  • KES(KingBaseES)集群部署实战
    今天我们将探讨关于KES(KingBaseES)的集群部署方案。作为示例,我们将以读写分离(RWC)集群为例,快速在本地进行部署和安装,并深入了解KES的部署流程。在本章中,我们将采用Windows平台上的可视化部署工具来进行集群的安装和配置。然而,由于硬件资源有限,本次演示仅展示单节点的成功部署,其他节......
  • Wireshark 是一个强大的网络分析工具,支持使用过滤器来筛选数据包,帮助用户高效地分析和
    Wireshark是一个强大的网络分析工具,支持使用过滤器来筛选数据包,帮助用户高效地分析和排查网络问题。Wireshark的过滤命令可以分为多种类型,以下是按功能分类的常见过滤命令,并以表格的形式展示:Wireshark过滤命令按功能分类类别过滤命令描述协议过滤http过滤HTTP......
  • Mysql连接报错排查解决记录
    Mysql连接报错排查解决记录背景: 系统:uosserver-1060e​ 运行环境kvm虚拟机​ mysql版本:5.7.44,forLinux(x86_64)问题现象:宿主机重启后,kvm虚拟机内的mysql服务无法远程连接了。通过不同的客户端工具连接,报错现象分别如下:dbeaver-ce工具连接报错:Cannotreadresp......
  • 计算机毕设项目分享:21g8a524+springboot基于java的商户点评管理与数据分析系统(毕设源
    基于java的商户点评管理与数据分析系统摘 要商户点评管理与数据分析系统是一个以店铺点评为核心的平台。用户可以通过该网站对商户的评价。同时,用户也可以浏览和发现店铺信息等。本文讲述了基于java语言开发,后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行......
  • 记一次GBase 8s 安装部署数据库初始化故障问题分析及处理记录
    一、前言最近南大通用第十期GBase8s免费培训开始了,因为今年以来一直在进行去O的调研,看GBase官网介绍GBase8sV8.8兼容Oracle,GBase8s是在informix源码基础上改造的产品,学习GBase8s刚好可以了解informix和测试迁移到Oracle。于是报名参加了本次的培训。学习GBase8s,首先......
  • 云服务器端口连不上?教你快速排查和修复的方法
    用户反映其云服务器上的某个端口(如7000端口)无法连接,怀疑是防火墙或服务监听问题。解决方案: 当遇到云服务器端口无法连接的情况时,可以从以下几个方面进行排查和修复:确认端口状态:使用命令行工具(如netstat-tuln)检查目标端口是否处于监听状态。如果端口未监听,检查相关服务是......
  • Nexus 9K 交换机接口 CRC 排查
    交换机接口出现CRC计数,通常数据帧意味着在数据传输过程中出现了错误。但是N9K上接口计数是历史累计值,那么接下来如何排查呢?故障现象错误计数增加:多次showinterface排查中,会发现计数在同步增长。数据传输异常:出现数据包丢失或传输速率下降等情况。连接状态不稳定:接......
  • 网站页面无法访问,如何排查和解决?
    检查服务器状态首先,请确认服务器是否正常运行。您可以登录到服务器控制面板(如宝塔面板),查看服务器的状态,确保所有服务(如PHP-FPM、MySQL等)都已启动并正常工作。如果发现某些服务未启动,尝试重启这些服务,并观察是否有任何错误日志输出。常见的错误可能是内存不足或磁盘空间已满,导致......
  • 请问数据库连接失败的排查方法
    当服务器内的数据库无法连接时,即使已经放行了3306端口,仍然可能存在其他潜在问题。为了确保数据库能够正常连接,您可以按照以下步骤进行排查和处理:确认端口放行: 首先,确保3306端口确实已经放行。使用命令行工具(如netstat-tuln|grep3306)检查端口监听状态,确认MySQL服务正在监听......