首页 > 数据库 >慢SQL治理实践及落地成果分享 | 京东物流技术团队

慢SQL治理实践及落地成果分享 | 京东物流技术团队

时间:2023-09-19 12:08:04浏览次数:40  
标签:0.9 落地 时间 治理 SQL 工单 京东 推送

一、治理背景

数据库系统性能问题会对应用程序的性能和用户体验产生负面影响。慢查询可能导致应用程序响应变慢、请求堆积、系统负载增加等问题,甚至引发系统崩溃或不可用的情况。慢SQL治理是在数据库系统中针对执行缓慢的SQL查询进行优化和改进的一项重要工作。

但原有的治理节奏,一般在大促备战期间,集中投入人力紧急治理,日常对慢SQL的关注度不高;即使研发团队想着手治理,实例下的SQL明细筛选繁琐,趋势不明,缺少系统化,数字化的治理方案。

所以为了保证系统稳定性,预防潜在慢SQL导致应急事故,发起慢SQL常态化备战专项,下文主要描述专项的实践及落地情况。

二、阶段规划

慢SQL治理实践及落地成果分享 | 京东物流技术团队_SQL

1.0阶段

目标:【形成常态化治理机制,关注慢SQL解决的有效率】

改变慢SQL治理习惯,由原大促备战期间治理,落地按照日维度产生的慢SQL每天跟进,关注双周维度治理的有效率。

关注指标:

逾期率 = 工单逾期数量(创建时间在当季度的任务)/总量(创建时间在当季度的任务) 注:超过14天未处理完成的算逾期,逾期与否以第一次完成的时间来判断,如果在截止日期前未完成,算逾期;如果在截止日期前完成,但是重开后,在截止日期后完成,不算逾期,算重开;挂起的如果超过14天会统计到逾期里;

重开率 =工单重开次数(创建时间在当季度的任务,如果是一个任务被重开5次,记录为5)/总量(创建时间在当季度的任务)

2.0阶段

目标:【彻底根治慢SQL历史债,达成阶段性内的>0.9s清零】

经过1.0阶段研发团队有序进行慢SQL的逐步治理,前期已经有效解决部分慢SQL数据,但仍存在历史债,影响系统稳定性。2.0阶段要求双周阶段性清零。

关注指标:

P0工单推送数=大于0.9s推送时间在当周的任务总数 注:声明级别划分,

P0 执行时间大于0.9秒,且达到阈值10次

P1 执行时间大于0.9秒,但未达到阈值10次

P2 执行时间小于0.9秒未加索引,且达到阈值10次

P3 执行时间小于0.9秒未加索引,但未达到阈值10次

P0工单存量数=大于0.9s推送时间在当周的任务中状态是非已解决的总数

解决率=大于0.9s推送时间在当中的任务状态是已解决的/推送时间在当周的任务总数

3.0阶段

目标:【提高系统性能指标,阶梯型降低慢SQL阈值】

存在较大隐患的0.9s阶段性清零后,对慢SQL工单逐步精细化,按照阶梯维度逐步降低慢SQL定义阈值,按照双周维度对新增慢SQL清零。

关注指标:

P0工单推送数=大于0.9s推送时间在当周的任务总数 注:声明级别划分,

P0 执行时间大于0.9秒

P1 执行时间小于等于0.9秒大于0.7秒

P2 执行时间小于等于0.7秒大于0.5秒

P3 执行时间小于等于0.5秒未加索引

P1工单推送数=小于等于0.9s大于0.7s推送时间在当周的任务总数

P2工单推送数=小于等于0.7s大于0.5s推送时间在当周的任务总数

存量数=推送时间在当周的任务中状态是非已解决的总数

解决率=推送时间在当中的任务状态是已解决的/推送时间在当周的任务总数

4.0阶段

目标:【前置预防慢SQL,落地数据库操作规范】

预期目标,彻底解决历史债提升系统性能指标后,贯彻数据库操作规范预防新增慢SQL,后续持续关注新增的慢SQL,控制新增数量目标周清。

关注指标:

工单新增数=推送时间在当周的非现存指纹ID的任务总数

存量数=推送时间在当周的任务中状态是非已解决的总数

解决率=推送时间在当中的任务状态是已解决的/推送时间在当周的任务总数

三、落地方案

①数据准备

阈值定义

结合二级部门业务,每天搜集SQL的查询时间是T-1天,执行时间>0.9秒或<0.9秒但执行计划内未走索引的,剔除bi_cx和wlcx抽数后(不区分主从),聚合相同指纹慢SQL均识别为现存风险慢SQL。

明确等级

不同治理阶段,会针对慢SQL划分优先级,按P0-P3顺序,推动研发由高到低按照不同解决时效进行考核。同时提供辅助诊断信息,包括触发该慢SQL治理任务的数据库IP/域名/库名/执行耗时/执行计划等。

归类筛选

按照实例信息,数据库名,归属系统,归属产品条线,查询时间,聚合指纹等进行归类,方便归类出慢SQL的同一问题源。

②工单推进

工单流转

按照业务条线划分,明确每个条线工单接口人,统一下派慢SQL工单给到接口人,由接口人按照系统分发组内同学,逐一解决。

解决思路

借鉴dba等提供的解决思路,同时总结团队内落地的解决方案,推进慢SQL快速解决。

③趋势分析

图表制作

根据每个阶段关注指标数据,制作慢SQL解决趋势图表,实现团队内可清晰查看,每个实例下的慢SQL明细,支持多个维度筛选;同时按照时间维度支持查看解决趋势了,现存数量等。

通晒复盘

以专项周会的形式,同步研发团队处理节奏和进度,保障持续推进。

④过程跟踪

1.0阶段主要关注解决有效性

慢SQL治理实践及落地成果分享 | 京东物流技术团队_推送_02

2.0阶段关注>0.9s的治理,进行历史债的清理

P0级SQL的解决跟进:

慢SQL治理实践及落地成果分享 | 京东物流技术团队_SQL_03

现有历史债的清零:

慢SQL治理实践及落地成果分享 | 京东物流技术团队_SQL治理_04

按月度出现慢SQL量的趋势

慢SQL治理实践及落地成果分享 | 京东物流技术团队_推送_05

四、落地结果

【系统保障】

经过慢SQL的逐步治理,截止529封板前,团队累计解决慢SQL831条,完成今年618备战期间,阶段性内的历史债**清零。**日常完成慢sql治理索引添加和代码优化,大促重点关注疑难和分析未使用索引,做到备战无遗漏。

慢SQL治理实践及落地成果分享 | 京东物流技术团队_执行时间_06

更是直接保障了系统的稳定性,近半年无因慢SQL导致的线上问题。

【方案沉淀】

随着慢SQL治理作为专项融入到研发的日常工作,首先团队内为避免新的慢SQL产生,落地数据库开发规范,京东集团数据库开发规范-V1.0-公示稿,同时如何分析SQL、快速定位、高效解决,团队内也输出了治理的解决方案。

五、总结

经过专项各个阶段的推进落地,团队内贯彻了治理目标,沉淀了解决方案,后续慢SQL治理会持续化推进,从而保障系统稳定性。

作者:京东物流 刘红妍
来源:京东云开发者社区 自猿其说 Tech 转载请注明来源

标签:0.9,落地,时间,治理,SQL,工单,京东,推送
From: https://blog.51cto.com/u_15714439/7523924

相关文章

  • 主动写入流对@ResponseBody注解的影响 | 京东云技术团队
    问题回溯2023年Q2某日运营反馈一个问题,商品系统商家中心某批量工具模板无法下载,导致功能无法使用(因为模板是动态变化的)商家中心报错(JSON串):{"code":-1,"msg":"失败"}负责的同事看到失败后立即与我展开讨论(因为不是关键业务,所以不需要回滚,修复即可),我们发现新功能模板下载的代码与之前......
  • 腾讯Fast-Causal-Inference已经在GitHub中公布,采用SQL交互
          腾讯近日宣布旗下的开源分布式数据科学组件项目Fast-Causal-Inference已经在GitHub中公布。根据公开资料显示,这是由腾讯微信研发,采用SQL交互的,基于分布式向量化的统计分析、因果推断计算库,宣称“解决已有统计模型库(R/Python)在大数据下的性能瓶颈,提供百亿......
  • Stream流处理快速上手最佳实践 | 京东物流技术团队
    一引言JAVA1.8得益于Lambda所带来的函数式编程,引入了一个全新的Stream流概念Stream流式思想类似于工厂车间的“生产流水线”,Stream流不是一种数据结构,不保存数据,而是对数据进行加工处理。Stream可以看作是流水线上的一个工序。在流水线上,通过多个工序让一个原材料加工成一个商品。......
  • 慢SQL的致胜法宝 | 京东物流技术团队
    大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什么思路去解决是我们必须要知道的。本文主要介绍对于慢SQL的排查、解决思路,通过一个个实际的例子深入分析总结......
  • 慢SQL治理实践及落地成果分享
    一、治理背景数据库系统性能问题会对应用程序的性能和用户体验产生负面影响。慢查询可能导致应用程序响应变慢、请求堆积、系统负载增加等问题,甚至引发系统崩溃或不可用的情况。慢SQL治理是在数据库系统中针对执行缓慢的SQL查询进行优化和改进的一项重要工作。但原有的治理节奏,......
  • python连接mysql
    pymysql是Python的一个MySQL数据库操作库,支持连接MySQL服务器,并进行数据库操作。例如以下代码段演示了如何使用pymysql库将数据存储到MySQL数据库py代码importpymysqldb=pymysql.connect(host='localhost',user='test',password='test',database='test',charset='utf8'......
  • python处理xls数据并保存到mysql数据库
    #-*-coding:utf-8-*-#CreatedbyY.W.on2017/7/3117:46.importpymysqlimportxlrd#获取xlsx文件,获取sheet文件try:book=xlrd.open_workbook('D:/test.xls')sheet=book.sheet_by_name(u'Sheet1')exceptExceptionase:prin......
  • MySQL优化(业务系统)
    影响一个系统的运行速度的原因是多方面的,前端、后端、数据库、中间件、服务器、网络等等,今天我们从常常被关注的数据库角度出发。跟系统的优化方向一样,数据库的优化,也是多方面的,其中涵盖着SQL语句的执行情况,数据库自身的情况等等,数据库种类众多,下面我们以目前常用的Mysql数据库为......
  • 将图片插入到SQL Server数据库
    --新建表imagecreatetableimage(img_idint,imgimage) 拖控件TADOQuery包含Jpeg.hpp//存入图片://image以二进制形式存放图片ADOQuery1->Close();ADOQuery1->SQL->Clear();ADOQuery1->SQL->Add("insertintoimagevalues(:img_id,:img)");ADOQuery1->Paramet......
  • 更改SQL Server sa密码、默认端口 以及ADO连接字符串指定端口号
    1、更改sa密码execsp_passwordnull,'000','sa'--将sa密码改为0002、更改SQLSERVER默认端口     (1)SqlServer服务使用两个端口:TCP-1433、UDP-1434。其中1433用于供SqlServer对外提供服务,1434用于向请求者返回SqlServer使用了那个TCP/IP端口。可以使用SQLServer的企业管......