首页 > 其他分享 >GaussDB整体性能慢分析

GaussDB整体性能慢分析

时间:2024-11-27 11:13:06浏览次数:8  
标签:数据库 0.00 性能 整体 CPU WDR SQL GaussDB

@

目录

问题描述

整体性能慢。不满足客户作业对时延要求或者不满足客户预期。

问题现象

业务反馈业务接口时延高;或者数据库P80/P95等指标升高;有可能会出现大量慢SQL。

告警

  • 业务侧相关接口时延、成功率等告警。
  • 数据库内核P80/P95相关告警。

业务影响

业务时延受损,或者业务在预期时间内无法执行完成。

原因分析

在处理整体性能慢问题时,在投入分析系统数据之前,有可能的情况下建议先去和客户沟通,了解相关问题背景,如:客户的预期或者目标、是否有业务变更、业务作业类型等,从而明确性能调优的前提和目标。
整体性能慢,首先需要找到瓶颈点,准确的瓶颈点将会对性能调优指明方向。有可能优化掉一个瓶颈点,对性能不一定有百分百的效果,同时可能又会转移到另外一个瓶颈点,优化是一个不断迭代的过程,比较耗时。
整体性能慢原因可能有多种,常见有如下几种:

  1. 业务侧原因。
  2. 系统资源不足。
  3. 不优数据库内核资源使用。
  4. 并发问题。
  5. 数据库配置不优。
  6. 不优SQL。

分析步骤

在这里插入图片描述

分析定位方法

步骤一

了解整体性能慢背景,如:客户预期、业务类型、近期业务变化、系统是否发生变化等等。

步骤二

明确压力是否传递至内核,或者说瓶颈点是否在内核侧。
可以查询数据库所在主机的CPU使用率、数据库内核相关视图、或者OPS上相关指标,明确可能是业务侧问题还是数据库侧问题,通过下面排查项可以查看是否有相关的压力传递至数据库内核。

  • 数据库相关视图:
    • pg_stat_activity/pgxc_stat_activity(track_activities=on):关注state状态为非idle的会话。
    • dbe_perf.local_threadpool_status/dbe_perf.global_threadpool_status:关注session_info字段。
  • OPS上实例监控相关指标:
    • CPU占用率。
    • 活跃会话数量。

如果说数据库活跃会话极少,数据库的吞吐大概率是无法上来,参考步骤3;否则参考步骤4。

步骤三

如果数据库侧未明显感知到业务压力,或者压力不够大,资源消耗极低,比如:CPU不足10%、活跃会话数量个位数,则建议业务侧进行相关排查,比较常见的情况可能有如下原因:

  • 应用服务器资源耗尽,CPU/IO/内存不足。
  • 应用服务器和内核网络时延过高。
  • 应用服务器处理查询结果慢,导致事务内SQL语句下发至内核慢。

步骤四

排查数据库所在系统资源是否有异常。

CPU满

可通过OPS CPU使用率或者操作系统top命令查看CPU使用率;也可以使用sar命令,查看历史的CPU使用率。

$ cd /var/log/sa 
$ sar -f sa 
12:00:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle 
12:10:01 AM     all     41.40      0.00     10.14      0.05      0.00     48.42 
12:20:01 AM     all     41.37      0.00     10.15      0.05      0.00     48.42 
12:30:01 AM     all     41.40      0.00     10.18      0.06      0.00     48.36 
12:40:01 AM     all     41.40      0.00     10.16      0.05      0.00     48.40 
12:50:01 AM     all     41.31      0.00     10.11      0.03      0.00     48.55 
01:00:01 AM     all     41.40      0.00     10.13      0.02      0.00     48.44

找到CPU使用率高的进程,如果是数据库导致的CPU异常,通常预期是gaussdb进程占用较高。

$ top 
top - xxxxxx up 44 days,  1:06,  0 users,  load average: 34.91, 35.33, 35.14 
Tasks: 641 total,  10 running, 631 sleeping,   0 stopped,   0 zombie 
%Cpu(s): 41.3 us, 10.1 sy,  0.0 ni, 48.6 id,  0.0 wa,  0.0 hi,  0.1 si,  0.0 st 
KiB Mem : 19748899+total, 14801132 free,  8637000 used, 17405084+buff/cache 
KiB Swap:  4194300 total,        0 free,  4194300 used. 10027731+avail Mem 
 
  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND 
10678 Ruby      20   0   54.8g  38.2g  34.6g S  1398 20.3 126085:50 gaussdb 
58736 Ruby      20   0 4901420  53220   6520 S  22.8  0.0   2624:15 cm_agent 
57648 Ruby      20   0   12.9g  90624  10168 S  10.6  0.0   1208:55 etcd

如果为某段时间内CPU高,则可比较正常时间段和异常时间段的WDR报告中Top SQL order by CPU部分,可参考后续的文章WDR报告分析。
在这里插入图片描述
如果CPU一直较高,方法一:可直接使用WDR报告中SQL ordered by CPU Time部分,尝试优化分析相关语句,可参考后续文章WDR报告分析;方法二:按照CPU高进行分析。
如果短时间CPU异常,按照CPU高进行分析。
如果仍然无法分析出CPU消耗原因,可以生成异常时间段内的火焰图,找到内核代码函数的瓶颈点,可参考后续文章火焰图分析。

I/O满或者I/O异常

表现为iostat内%util满、或者r_await较高(一般大于3ms)、或者w_await较高(一般大于3ms)。
如果上述I/O的指标存在异常,比如I/O读写量上不去、时延较高,可联系操作系统相关同事分析,可能的原因有:

  1. 硬盘cache/raid写策略配置问题。
  2. 磁盘带宽被限流(OBS本身有流控)。

如果本身I/O量大,可以使用pidstat/iotop来分析I/O量消耗的线程。

  1. pidstat -dt -p gaussdb进程号
  2. iotop

通常是TPLworker线程消耗的I/O读写量异常,代表用户SQL消耗I/O多,其中TID表示内核线程的LWTID,可通过如下过程找到对应的在运行SQL语句:

  1. pidstat/iotop内目标TID。
  2. 通过查询pg_thread_wait_status视图的lwtid为上一步内的TID,获取对应的tid和sessionid。
  3. 查询pg_stat_activity视图内记录满足pid/sessionid为上一步内的tid/sessionid,即可找到造成I/O高的session信息,包括具体的语句。

接下来就可以单独去优化相关Query,减少I/O量,可参考单SQL性能慢分析
另外,可以通过WDR报告内SQL ordered by Physical Reads部分识别对应时间段内造成I/O读取量较大的Query,可参考后续文章WDR报告分析。
在这里插入图片描述
对于I/O量一直很大,如果是用户语句导致,也可参照IO高进行处理。

内存满

内存不足有可能会导致程序执行缓慢。
首先需要找到内存占用异常的进程,此处仅考虑gaussdb内存占用异常情况,其它进程不具有代表性意义,此处不过多描述。
gaussdb进程内存占用异常,可参照内存高进行处理。

网络异常

网络异常常见的有几种情况:

  1. 网络不通:这种场景在业务刚上线的时候,有时候会遇到,表现为数据库无压力,或者无某些业务服务器的连接,可查询pg_stat_activity相关视图内在线client连接IP信息。
  2. 网络时延高:通常表现为业务侧数据反馈时延慢,内核侧时延短,通过使用ping命令即可验证猜测。
  3. 网络带宽满:这种场景可能会比较少,一般网络带宽比较大,如果遇到这种情况可以查看ops和应用侧相关网络流量曲线,通常随着压力增长网络流量会上升,有时会遇到网络压力不再上涨,而且未达到网卡理论上限,此时可找网络同事分析相关异常点。

步骤五

排查数据库内核是否使用不优。

并发问题

此问题主要由于并发更新,产生的锁等待,从而导致业务时延上涨、TPS下降、或者线程池满等。

数据库配置问题

正常情况下,客户环境上面的GUC配置是默认较优的,一般不需要特别调整。但某一些情况下,可能未使用默认配置或者客户环境有些微调的地方。常见的可能情况有:

  1. shared_buffers配置过小,导致buffer淘汰频繁。
  2. 排序等算子可使用的work_mem过小,导致异常下盘过多,建议根据业务情况适当优化。
  3. 线程池worker参数thread_pool_attr设置过小,导致业务排队。

异常等待事件

数据库内等待事件分为 STATUS、LWLOCK_EVENT、LOCK_EVENT、IO_EVENT。
识别异常等待事件通常是非常有效的整体性能慢的诊断手段详细可参考1.2.7 整体性能慢-等待事件分析。

长时间性能下降

长时间性能下降通常的场景,通常是指某段时间(小时级)性能抖动,比如: 过去8:00-9:00性能正常,但10:00-11:11性能出现较大的性能抖动,这种场景,可以比较两段时间内WDR报告,排查报告内差异点,可排查Top SQL、Top Wait Events、Load Profile、Cache/IO Stats、Object Stats等。

短时性能抖动

当前WDR快照默认为一小时一次,正常对于小时级的性能抖动,WDR足够覆盖这种场景。但当出现秒级性能抖动,因为性能视图多为累积值,WDR通常无法体现。

不优SQL

当前数据库内核默认是开启线程池的,由于某些或者某个不优SQL慢,导致业务整体性能差,或者占满整个内核线程池,从而可能会引发更加严重的业务阻塞。
此处仅描述不优SQL识别,对于不优SQL的调优,可参考1.2.1 单SQL性能慢分析,通常分为以下几种情况:

  • 当前正在执行的SQL大批量慢:这种场景比较常见,一般可以通过pg_stat_activity查询获取相关SQL,可结合当前语句执行时间长短识别,如:(now() - query_start) as duration。
  • 发现大量慢SQL:通过OPS慢SQL指标可发现慢SQL数量短时间增加,并结合OPS的P80/P95、TPS、QPS等指标识别慢语句对整体时延的影响,如果明确相关,可查询慢语句表statement_history,找到目标慢语句,此处注意要切到postgres库。
  • 过去某段时间业务反馈慢:
    1. 可以使用相应时间段的WDR,分析异常TOP SQL,可参考1.2.4 WDR报告分析。
    2. 另外通过active session profile(ASP),分析过去运行慢的SQL。




详情参考: https://support.huaweicloud.com/gaussdb/index.html

标签:数据库,0.00,性能,整体,CPU,WDR,SQL,GaussDB
From: https://www.cnblogs.com/xxxmut/p/18571917

相关文章

  • JDBC连接GaussDB云数据库操作示例
    ​目录一、实验环境二、登录华为云创建测试库表1、登录GaussDB云数据库2、建库、建表,用于测试3、新增普通角色(用户)用于登录及访问测试(可选)4、获取对应的公网IP三、创建java工程1、创建java工程2、添加jar包3、编辑Java代码四、执行并查看测试结果一、实验环境1、本......
  • GaussDB SQL基本语法示例-CASE表达式
    一、前言SQL是用于访问和处理数据库的标准计算机语言。GaussDB支持SQL标准(默认支持SQL2、SQL3和SQL4的主要特性)。本系列将以《云数据库GaussDB—SQL参考》在线文档为主线进行介绍。二、CASEExpression(CASE表达式)介绍在GaussDBSQL中,CASE表达式(CASEExpression)是一个非常强大......
  • GaussDB云数据库SQL应用系列-视图管理
    ​一、前言GaussDB是一款基于云计算技术的高性能关系型数据库,支持多种数据模型和分布式架构。在GaussDB中,视图管理是非常重要的一项功能,它可以帮助用户更方便地管理和查询数据。数据库视图管理是指对数据库中的视图进行创建、修改、删除、查询等操作的过程。二、准备条件参考......
  • GaussDB云数据库SQL应用系列—索引管理
    一、前言随着互联网的快速发展,数据量呈现爆炸式增长。如何高效地管理和查询这些数据成为了企业面临的重要问题。而数据库索引作为数据库优化的关键手段之一,对于提高数据库性能和查询效率具有重要作用。本文将介绍GaussDB云数据库的索引创建和管理方法,并结合实际应用场景进行分析......
  • GaussDB云数据库SQL应用系列-基础使用
    ​目录一、前言二、前提条件1、连接数据库实例2、GaussDB实例正常运行三、操作示例1、选择实例并进入SQL执行界面2、创建数据库用户3、创建数据库4、创建SCHEMA5、创建表(增删改查)1)创建3张表,并初始化一些数据2)假设查询场景,并通过SQL实现一、前言随着云计算技术的不......
  • GaussDB数据库SQL系列-自定义函数
    一、前言华为云GaussDB数据库是一款高性能、高安全性的云原生数据库,在GaussDB中,自定义函数是一个不容忽视的重要功能。本文将简单介绍一下自定义函数在GaussDB中的使用场景、使用优缺点、示例及示例解析等,为读者提供指导与帮助。二、自定义函数(Function)概述在SQL中,自定义函数(Fu......
  • GaussDB技术解读系列:运维自动驾驶探索
    ​随着企业数字化转型进入深水区,数据库系统越来越复杂,运维团队维护的数据库规模越来越大,传统工具化的运维已无法满足当前运维的要求,数据库运维逐渐向智能化发展。如何更好地感知和预测数据库故障,进而进行智能诊断、自适应恢复,是我们一直探索的内容。接下来本篇将分享GaussDB在运......
  • GaussDB数据库SQL系列-定义重载函数
    一、前言在本文中,我们将介绍GaussDB数据库中的用户定义函数重载的概念、用法以及示例。用户定义函数是SQL中常用的“编程工具”,允许我们自定义函数来处理和操作数据。而函数重载则是指在一个数据库中定义多个具有相同名字但参数不同的函数,以此实现不同的功能。二、函数重载的......
  • GaussDB数据库SQL系列-游标管理
    一、前言在数据库中,游标(cursor)是一种非常重要的工具,用于在数据库查询结果集中进行定位和操作。游标提供了一种在多行数据结果集中逐行处理每一行的机制,允许开发人员对每一行的数据进行操作,如检索、过滤、修改等。本文将结合GaussDB数据库,简单的给大家做一介绍。二、概述(GaussDB)......
  • GaussDB技术解读系列:高安全之密态等值
    ​本篇为大家分享GaussDB高安全的关键特性,名字叫密态等值,是一个关于全密态的关键能力。数据成为生产要素,合规要求趋于严格大家应该都有切身的体会,近些年数据的重要性越来越高,特别是国家已经把数据明确定义为了生产要素。生产要素是什么?就好像过去的石油,从工业革命时期开始,每一......