首页 > 数据库 >openGauss数据库源码解析——慢SQL检测

openGauss数据库源码解析——慢SQL检测

时间:2024-04-08 15:26:28浏览次数:27  
标签:语句 模型 算子 源码 SQL openGauss 执行 模板

openGauss 数据库源码解析——慢 SQL 检测
慢 SQL 检测的定义:
基于历史 SQL 语句信息进行模型训练,并用训练好的模型进行 SQL 语句的预测,利用预测结果判断该 SQL 语句是否是潜在的慢 SQL。当发现潜在的慢 SQL 后,开发者便可以进行针对性优化或者风险评估,以防业务上线后发生问题。

慢 SQL 检测的功能:
上线业务预检测:上线一批新业务前,使用 SQL 诊断功能评估此次上线业务的预估执行时长,便于用户参考是否应该修改上线业务。workload 分析:能够对现有 workload 进行分析,将现有 workload 自动分为若干类别,并依次分析此类别 SQL 语句执行代价,以及各个类别之间的相似程度。

首先,明确一下慢 SQL 发现的几个不同阶段,及其对应解决的问题。
阶段 1:对用户输入的一批业务 SQL 语句进行分析,推断 SQL 语句执行时间的快慢,进而可以将评估为慢 SQL 的语句识别出来。

阶段 2:对识别出的潜在慢 SQL 进行根因诊断,判断这些 SQL 语句是因为什么慢,例如比较常见的原因可能是数据量过大、SQL 语句自身过于复杂、容易产生并发的锁冲突、没有创建索引导致全表扫描等等。

阶段 3:对于已经识别出来的慢 SQL 语句的可能问题源,给出针对性的解决方案,譬如可以提示用户进行 SQL 语句的改写、创建索引等。

目前 openGauss 已具备阶段 1 的能力,正在推进阶段 2 能力,同时发布了部分阶段 3 的能力,如索引推荐功能。业内对于上述第一阶段的主要实现方法大部分是通过执行计划进行估计的,第二阶段大多是通过构建故障模式库、通过启发式规则来实现的,有了上述前两个阶段的准备,第三阶段的实现往往是比较独立的。学术界对于第一阶段的研究比较多,第二阶段采用常规的构建故障模式库的方法实现已经能取得比较好的效果了,因此并不是研究的热点,而第三阶段的工作又相对独立,可以单独作为一个领域进行研究。

基于执行计划的 DNN 模型:
功能流程:

该算法是将执行计划中的算子信息输入到深度学习网络中,从而对执行时间进行预测的。对于每个算子,收集左右子树的向量化特征、优化器代价及执行时间,输入与之对应的模型中,预测该算子的向量化特征及执行时间等。上述过程是个自底向上的过程。

例如——Join 操作预测流程
该流程图显示了一个 join 操作的预测流程,其左右子树均为 Scan 算子,将两个 Scan 算子通过对应的模型预测出的向量化特征、执行时间,以及该 join 算子的优化器评估代价作为入参,输出 join 算子模型得到该操作的向量化特征及预测出的执行时间。

上述技术的缺点。
(1) 需要通过已预测算子不断修正模型,预测过程会较慢。
(2) 对环境变化感知差,如数据库参数变化会使得原模型几乎完全失效。
(3) 预测过程依赖待测语句的执行计划,加重了数据库的负荷,对于 OLTP 场景格外不适用。

基于执行计划的 MART(multiple additive regression trees,多重累加回归树)模型,主要包含离线训练模块和在线预测模块。他们的功能如下所示。
离线训练阶段:针对数据库每种类型的算子(如 Table Scan,Merge Join,Sort…),分别训练其对应的模型,用于估算此算子的开销。此外,使用单独的训练阶段,可为不同的算子选择适当的缩放函数。最后,形成带缩放函数的不同的回归树模型。

在线预测阶段:计算出执行计划中所有算子的特征值。然后,使用特征值为算子选择合适的模型,并使用它来估算执行时间。

功能流程:
基于执行计划 MART 模型技术调优技术的缺点。
1.泛用性较差,强依赖训练好的算子模型,遇到例如用户自定义函数的未知语句时,预测效果会较差。

2.缩放函数依赖于先验结果,对于超出范围的特征值效果无法保证。

3.预测过程依赖待测语句的执行计划,加重了数据库的负荷,很难推广到 OLTP 场景中。

慢 SQL 检测采取的策略:
基于 SQL 模板化的流程
基于 SQL 模板化的流程类似于基于执行计划 MART 模型技术调优技术,他的具体流程如下:
1.获取 SQL 流水数据。

2.检测本地是否存在对应实例的历史模板信息,如果存在,则加载该模板信息,如果不存在,则对该模板进行初始化。

3.基于 SQL 数据,提取 SQL 的粗粒度模板信息。粗粒度模板表示将 SQL 中表名、列名和其他敏感信息去除之后的 SQL 语句模板,该模板只保留最基本的 SQL 语句骨架。

4.基于 SQL 数据,提取 SQL 细粒度的模板信息。细粒度模板表示在粗粒度模板信息的基础上保留表名、列名等关键信息的 SQL 语句模板。细粒度模板相对粗粒度模板保留了更多 SQL 语句的信息。

5.执行训练过程时,首先构造 SQL 语句的基于粗粒度模板和细粒度模板信息,例如粗粒度模板 ID、执行平均时间、细模板执行时间序列、执行平均时间和基于滑动窗口计算出的平均执行时间等。最后将上述模板信息进行储存。

6.执行预测过程时,首先导入对应实例的模板信息,如果不存在该模板信息,则直接报错退出;否则继续检测是否存在该 SQL 语句的粗粒度模板信息,如果不存在,则基于模板相似度计算方法在所有粗粒度模板里面寻找最相似的 N 条模板,之后基于 KNN(K 近邻)算法预测出执行时间;如果存在粗粒度模板,则接着检测是否存在近似的细粒度模板,如果不存在,则基于模板相似度计算方法在所有细粒度模板里面寻找最相似的 N 条模板,之后基于 KNN 预测出执行时间;如果存在匹配的细粒度模板,则基于当前模板数据,直接返回对应的执行时间。

实现代码:
基于深度学习的执行流程
1.获取 SQL 流水。

2.在训练过程中,首先判断是否存在历史模型,如果存在,则导入模型进行增量训练;如果不存在历史模型,则首先利用 word2vector 算法对 SQL 语句进行向量化,即图 8-11 中的 SQL embeding 过程。而后创建深度学习模型,将该 SQL 语句向量化的结果作为输入特征。基于训练数据进行训练,并将模型保存到本地。值得一提的是,该深度学习模型的最后一个全连接层网络的输出结果作为该 SQL 语句的特征向量。

3.在预测过程中,首先判断是否存在模型,如果模型不存在,则直接报错退出;如果存在模型,则导入模型,并利用 word2vector 算法将待预测的 SQL 语句进行向量化,并将该向量输入到深度学习网络中,获取该神经网络的最后一个全连接层的输出结果,即为该 SQL 语句的特征向量。最后,利用余弦相似度在样本数据集中进行寻找,找到相似度最高的 SQL 语句,将该结果返回即为该待预测 SQL 语句的预估执行时间。当然,如果是基于最新 SQL 语句执行时间数据集训练出的深度学习模型,则模型的回归预测结果也可以作为预估执行时间。

实现代码:
总体流程代码解析
参考文章:Gauss 松鼠会源码解析

标签:语句,模型,算子,源码,SQL,openGauss,执行,模板
From: https://www.cnblogs.com/helloopenGauss/p/18121242

相关文章

  • MySQL - varchar(N) 的N代表什么?怎么存储?
    varchar(N)的N代表什么?N代表“字符”varchar(32)表示:可以存储32个字符,包括中文和其他字符。跟中英文无关,也就是该字段可以存储32个中文,或者是32个英文,或者是32个中文和英文的混搭都行。但如果字符数超过32个的话就会报错。参考:什么是字符?什么是字节? 原文内容......
  • openGauss单机部署
    openGauss单机部署一、安装环境操作系统:虚拟机VMware、CentOS7.9环境设置:(1)虚拟机内存3G、磁盘100G(2)系统版本修改一开始使用了centos8,无法安装,因此降低版本,选用7.9后依然存在一些问题,因此修改/etc/redhat-release文件中系统版本为CentOSLinuxrelease7.6(Core)(3)......
  • openGauss内存引擎中的索引
    一、索引索引是一种用于快速查询和检索数据的数据结构。常见的索引结构有:B树,B+树和Hash。索引的作用就相当于目录的作用。打个比方:我们在查字典的时候,如果没有目录,那我们就只能一页一页的去找我们需要查的那个字,速度很慢。如果有目录了,我们只需要先去目录里查找字的位置,......
  • 8000套计算机毕业设计源码分享平台
    定制加急:springboot ssm 微信小程序 安卓APP源码packagecom.controller;importjava.io.File;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.text.SimpleDateFormat;importjava.util.*;importjavax.servlet.http.HttpSe......
  • 国产开源数据库OpenGauss的安装运行
    步骤一:OpenGauss的安装环境OS:openEuler20.0364bitwithARM架构:arm64部署:单机安装过程1、环境配置安装依赖包:yuminstalllibaio-develflexbisonncurses-develglibc-develpatchreadline-devel2、创建xml配置文件创建cluster_config.xml配置文件并进行配置......
  • 探究MySQL8.0驱动的加载
    探究MySQL8.0驱动的加载大家在连接mysql的时候,启动项目,会警告你推荐使用com.mysql.cj.jdbc.Driver而不是com.mysql.jdbc.Driver那么这两者到底有什么区别呢本质区别:com.mysql.jdbc.Driver是mysql-connector-java5中的,需要手动加载驱动com.mysql.cj.jdbc.Driver是mysql......
  • C# SQLSERVER 自动备份
    publicclassBakDBHelper{///<summary>///创建数据库备份///</summary>publicstringCreateBackup(stringdbname,stringbackname){stringres="";//要备份的位置......
  • MySQL学习路线一条龙
    引言在当前的IT行业,无论是校园招聘还是社会招聘,MySQL的重要性不言而喻。面试过程中,MySQL相关的问题经常出现,这不仅因为它是最流行的关系型数据库之一,而且在日常的软件开发中,MySQL的应用广泛,尤其是对于Java后端开发者来说,熟练掌握MySQL已成为他们技术能力评估的重要指标。因此,My......
  • 企业工程项目管理系统源码(三控:进度组织、质量安全、预算资金成本、二平台:招采、设计管
    工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理   工程项目各模块及其功能点清单一、系统管理    1、数据字典:实现对数据字典标签的增删改查操作......
  • python计算机毕设【附源码】基于Android开发的智能音乐播放系统(django+mysql+论文)
    本系统(程序+源码)带文档lw万字以上  文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景:随着移动互联网的飞速发展,智能手机已经成为人们日常生活中不可或缺的一部分。在众多手机应用中,音乐播放系统是用户使用频率较高的应用之一。传统的音乐播放......