---- 2.x/3.x常见问题排查思路
---- 2024年8月23日10:15:26
第一、全链路诊断:
CPU问题:
内存问题(-4030、-4013):
内存泄漏:
CORE问题:
链接类问题(异常断链、连接不上等):
SQL执行相关(失败、慢等):
备份恢复问题:
长事务与悬挂事务:
切主问题(有主改选、无主选举):
CLOG盘满:
UNIT迁移和缩容:
合并:
启动类(启动慢、启动异常等):h
常见的一些告警的原因:
第二、提单者:
一、需要您提供集群相关基础信息:
1,root@sys租户登录集群,执行SQL提供下结果:
select svr_ip,zone,status,with_rootserver,build_version,usec_to_time(stop_time) stop_time,usec_to_time(start_service_time) start_time from __all_server;
2,登录OB任意一台主机,执行lsblk提供下结果
3,登录OB任意一台主机,执行lscpu | grep Architecture 提供下结果
4,root@sys租户登录集群,执行SQL提供下结果:select tenant_id,tenant_name,primary_zone,compatibility_mode from oceanbase.__all_tenant;
5,root@sys租户登录集群,执行SQL提供下结果:show parameters like '% syslog_level %';
6,root@sys租户登录集群,执行SQL提供下结果:show parameters like '%syslog_io_bandwidth_limit%'
7,root@sys租户登录集群,执行SQL提供下结果:select count(*),tenant_id,zone_list,unit_count from oceanbase.__all_resource_pool group by tenant_id,zone_list,unit_count;
第三、接单者:
二、针对xxx问题场景,还需要您提供给我们的信息:
1,如上xxxx需要接单者自动替换对应问题场景
2,不同版本和问题场景收集信息不一样,需要接单者自动补全