首页 > 数据库 >十亿级订单系统的数据库查询性能优化之路

十亿级订单系统的数据库查询性能优化之路

时间:2024-12-10 10:55:40浏览次数:4  
标签:优化 数据库 查询 订单 入库 十亿 数据 ES

作者:京东零售 崔健

0.前言

•系统概要:BIP采购系统用于京东采销部门向供应商采购商品,并且提供了多种创建采购单的方式以及采购单审批、回告、下传回传等业务功能

•系统价值:向供应商采购商品增加库存,满足库存周转及客户订单的销售,供应链最重要的第一环节

1.背景

采购系统在经历了多年的迭代后,在数据库查询层面面临巨大的性能挑战。核心根因主要有以下几方面:

复杂查询多,历史上通过MySQL和JED承载了过多的检索过滤条件,时至今日很难推动接口使用方改变调用方式

数据量大,随着业务的持续发展,带来了海量的数据增长(日均150万单左右,订单主表/子表/渠道表/扩展表分别都是:6.5亿行,订单明细表/分配表:9.2亿行,日志表:60亿行)

数据模型复杂,订单完整数据分布在20+张表,经常需要多表join

引入的主要问题有:

•业务层面:

订单列表页查询/导出体验差,性能非常依赖输入条件,尤其是在面对订单数据倾斜的时候,部分用户无法查询/导出超过半个月以上的订单

查询条件不合理,1.归档筛选条件,技术词汇透传到业务,导致相同周期的单子无法一键查询/导出,需要切换“是否归档”查询全部;2.无法区分“需要仓库收货”类的单子,大部分业务同事主要关注这类单子的履约情况

•技术层面:

慢SQL多,各种多表关联复杂条件查询导致,索引、SQL已经优化道了瓶颈,经常出现数据库负载被拉高

大表多,难在数据库上做DDL,可能会引起核心写库负载升高、主从延迟等问题

模型复杂,开发、迭代成本高,查询索引字段散落在多个表中,导致查询性能下降

2.目标

业务层面:提升核心查询/导出体验,加强查询性能,优化不合理的查询条件

技术层面:1.减少慢SQL,降低数据库负载,提高系统稳定性;2.降低单表数据量级;3.简化数据模型

3.挑战

提升海量数据、复杂场景下的查询性能!

•采购订单系统 VS C端销售订单系统复杂度对比:

对比项采购订单系统C端订单销售系统
分库逻辑 使用采购单号分库 按用户pin分库分表
查询场景 面向采销、接口人、供应商、仓储运营提供包括采销员、单号、SKU、供应商、部门、配送中心、库房等多场景复杂查询 主要是按用户pin进行订单查询
单据所属人 采购单生成后,采销可以进行单据转移 订单生成后订单所属人不变
数据倾斜 单一采销或供应商存在大量采购单,并且自动补货会自动创建采购单 C端一个用户pin下订单数量有限

4.方案

思路

 

 

优化前

 

 

优化后

 

 

4.1 降低查询数据量

4.1.1 前期调研

基于历史数据、业务调研分析,采购订单只有8%的订单属于“需要实际送货至京东库房”的范围,也就是拥有完整订单履约流程、业务核心关注时效的。其余订单属于通过客户订单驱动,在采购系统的生命周期只有创建记录

 

 

基于以上结论,在与产品达成共识后,提出新的业务领域概念:“入库订单” ,在查询时单独异构这部分订单数据(前期也曾考虑过,直接从写入层面拆分入库订单,但是因为开发成本、改动范围被pass了)。异构这部分数据实际也参考了操作系统、中间件的核心优化思路,缓存访问频次高的热数据

4.1.2 入库订单异构

执行流程

 

 

•“入库”订单数据打标

◦增量订单在创建订单完成时写入;存量订单通过离线表推数

◦需要订单创建模块先完成改造上线,再同步历史,保证数据不丢

◦如果在【数据解析模块】处理binlog时无法及时从JimKV获取到订单标识,会补偿反查数据库并回写JimKV,提升其他表的binlog处理效率

•binlog监听

◦基于公司的【数据订阅】任务,通过消费JMQ实现。其中订阅任务基于订单号进行MQ数据分区,并且在消费端配置不允许消息重试,防止消息时序错乱

◦其中,根据订单号进行各个表的MQ数据分区,第一版设计可能会引起热分区,导致消费速率变慢,基于这个问题识别到热分区主要是由于频繁更新订单明细数据导致(订单(1)->明细(N)),于是将明细相关表基于自身id进行分区,其他订单纬度表还是基于订单号。这样既不影响订单数据更新的先后顺序,也不会造成热分区、还可以保证明细数据的准确性

•数据同步

◦增量数据同步可以采用源库的增量binlog进行解析即可,存量数据通过申请新库/表,进行DTS的存量+增量同步写入,完成binlog生产

◦以上是在上线前的临时链路,上线后需要切换到源库同步binlog的增量订阅任务,此时依赖“位点回拨”+“数据可重入”。位点回拨基于订阅任务的binlog时间戳,数据可重入依赖上文提到的MQ消费有序以及SQL覆盖写

•数据校对

◦以表为纬度,优先统计总数,再随机抽样明细进行比对

◦目前入库订单量为稳定在5000万,全部实时订单量级6.5亿,降低92%

4.2 提升复杂查询能力

4.2.1 数据准备

•考虑到异构“入库”订单到JED,虽然数据查询时效性可以有一定保障,但是在复杂查询能力以及识别“非入库”订单还没有支持

•其中,“非入库”订单业务对于订单数据时效性要求并不高(1.订单创建源于客户订单;2.没有履约流程;3.无需手动操作订单关键节点)

•所以,考虑将这部分查询能力转移到ES上

ES数据异构过程

 

 

•首先,同步到ES的数据的由“实时+归档”订单组成,其中合计20亿订单,顺带优化了先前归档ES大索引(所有订单放在同一个索引)的问题,改成基于“月份”存储订单,之所以改成月份是因为根据条件查询分两种:1.一定会有查询时间范围(最多3个月);2.指定单号查询,这种会优先检索单号对应的订单创建时间,再路由到指定索引

•其次,简化了归档程序流程,历史方案是程序中直接写入【归档JED+归档ES】,现在优化成只写入JED,ES数据通过【数据解析模块】完成,简化归档程序的同时,提高了归档能力的时效性

•再次,因为ES是存储全量订单,需要支持复杂条件的查询,所以在订单没有物理删除的前提下,【数据解析模块】会过滤所有delete语句,保证全量订单数据的完整性

•接着,为了提升同步到ES数据的吞吐,在MQ消费端,主要做了两方面优化:1.会根据表和具体操作进行binlog的请求合并;2.降低对于ES内部refresh机制的依赖,将2分钟内更新到ES的数据缓存到JimKV,更新前从缓存中获取

•最后,上文提到,同步到入库JED,有的表是根据订单号,有的表是根据自身id。那么ES这里,因为NoSQL的设计,和线程并发的问题,为了防止数据错误,只能将所有表数据根据单号路由到相同的MQ分区

4.2.2 查询调度策略设计

优化前,所有的查询请求都会直接落到数据库进行查询,可以高效查询完全取决于用户的筛选条件是否可以精准缩小数据查询范围

优化后,新增动态路由层

离线计算T-1的采销/供应商的订单数据倾斜,将数据倾斜情况推送到JimDB集群

根据登陆用户、数据延迟要求、查询数据范围,自动调度查询的数据集群,实现高性能的查询请求

查询调度

 

 

5.ES主备机制&数据监控

1.主/备ES可以通过DUCC开关,实现动态切换,提升数据可靠性

2.结合公司的业务监控,完成订单数据延迟监控(数据同步模块写入时间-订单创建时间)

3.开启消息队列积压告警

5.1 ES集群主/备机制

1:1ES集群进行互备,应急预案快速切换,保证高可用

 

 

5.2 数据监控

 

 

6.灰度上线

•第一步,优先上线数据模块,耗费较多时间的原因:1.整体数据量级以及历史数据复杂度的问题;2.数据同步链路比较长,中间环节多

•第二步,预发环境验证,流量回放并没有做到长周期的完全自动化,根因:1.项目周期相对紧张;2.新老集群的数据还是有一些区别,回放脚本不够完善

•第三步,用户功能灰度,主要是借助JDOS的负载均衡策略结合用户erp完成

•第四部,对外接口灰度,通过控制新代码灰度容器个数,逐步放量

 

 

7.成果

平稳切换,无线上问题

指标具体提升
采购列表查询(ms) 1、TP999:4817 优化到 2872,提升40.37% 2、超管、部门管理员由无法查询超过一周范围的订单,优化为可以在2秒内查询3个月的订单 3、页面删除“是否归档”查询条件,简化业务操作 4、页面新增“是否入库”查询条件,聚焦核心业务数据
仓储运营列表(ms) TP999:9009 优化到 6545,提升27.34%
采购统计查询(ms) TP999:13219 优化到 1546,提升88.3%
慢SQL指标(天纬度) 1、1s-2s慢SQL数:820->72,降低91% 2、2s-5s慢SQL数:276->26,降低90% 3、5s以上慢SQL数:343->6,降低98%

8.待办

•主动监控层面,新增按照天纬度进行数据比对、异常告警的能力,提高问题发现率

•优化数据模型,对历史无用订单表进行精简,降低开发、运维成本,提升需求迭代效率

•精简存储集群

◦逐步下线其他非核心业务存储集群,减少外部依赖,提高系统容错度

◦目前全量订单ES集群已经可以支持多场景的外部查询,未来考虑是否可以逐步下线入库订单JED

•识别数据库隐患,基于慢日志监控,重新梳理引入模块,逐步优化,持续降低数据库负载

•MySQL减负,探索其他优化方案,减少数据量存储,提升数据灵活性。优先从业务层面出发,识别库里进行中的僵尸订单的根因,进行分类,强制结束

•降级方案,当数据同步或者数据库存在异常时,可以做到秒级无感切换,提升业务可用率

9.写在最后

•为什么没考虑Doris?因为ES是团队应用相对成熟的中间件,处于学习、开发成本考虑

•未来入库的JED相关表是否可以下掉,用ES完全替代?目前看可以,当初设计冗余入库JED也是出于对于ES不确定性以及数据延迟的角度考虑,而且历史的一部分查询就落在了异构的全量实时订单JED上。现在,JED官方也不是很推荐非route key的查询。最后,现阶段因为降低了数据量和拆分了业务场景,入库JED的查询性能还是非常不错的

•因为项目排期、个人能力的因素,在方案设计上会有考虑不周的场景,本期只是优化了最核心的业务、技术痛点,未来还有很大持续优化的空间。中间件的使用并不是可以优化数据库性能的银弹,最核心的还是要结合业务以及系统历史背景,在不断纠结当中寻找balance

标签:优化,数据库,查询,订单,入库,十亿,数据,ES
From: https://www.cnblogs.com/Jcloud/p/18596873

相关文章

  • 写一个方法,实现树的路径查询[代码]
    /***树路径查询函数*@param{Array<Object>}treeData-树数据,格式为[{id:1,name:'Node1',children:[...]},...]*@param{string|number}targetId-目标节点的ID*@returns{Array<Object>|null}-返回从根节点到目标节点的路径数组,找不到则返回......
  • PbootCMS默认使用哪种数据库?如何切换到MySQL数据库?
    PbootCMS默认使用SQLite数据库,这种数据库不需要额外的配置和导入操作,适合快速部署和小型项目。如果需要切换到MySQL数据库,你需要按照以下步骤操作:导入数据库文件:首先,你需要将MySQL数据库文件(通常位于/static/backup/sql/xxx.sql)导入到你的MySQL服务器中。你可以使用phpMyAdmin......
  • 当我在使用 PbootCMS 时遇到“无法打开数据库文件”的错误,应该怎么办?
    当您在使用PbootCMS时遇到“无法打开数据库文件”的错误,这通常意味着系统无法访问或打开数据库文件。根据您提供的信息,最常见的原因是服务器磁盘空间已满。以下是一些详细的解决步骤:检查磁盘空间:登录到您的服务器控制面板或通过SSH连接到服务器。使用 df-h 命令查看......
  • 如何排查WordPress数据库错误?
    排查WordPress数据库错误需要系统地检查各个可能的故障点。以下是一些常用的排查方法,帮助您快速定位并解决问题:检查WordPress版本和插件更新:确保您的WordPress版本和插件是最新的。过时的版本可能会导致兼容性问题,从而引发数据库错误。解决方法:登录到WordPress后台,导航到“......
  • PbootCMS后台登录提示“登录失败:数据库目录写入权限不足!”如何解决?
    当在PbootCMS后台尝试登录时,如果遇到“登录失败:数据库目录写入权限不足!”的错误提示,这通常是由于数据库存放目录没有足够的写入权限导致的。解决这个问题的方法如下:检查数据库目录权限:登录到服务器,进入PbootCMS的根目录。找到data目录,该目录用于存放sqlite数据库文件。......
  • dbGate:一款功能强大且开源的跨平台数据库管理工具
    本文说的是一个支持多种数据库类型,包括但不限于MySQL、PostgreSQL、SQLServer、MongoDB、SQLite、Oracle、AmazonRedshift、CockroachDB以及MariaDB等。这使得你不需要为不同的数据库类型更换不同的管理工具,可以帮助你提高工作效率的神器!工具跨平台使用,可以在Windows、Linux、......
  • Windows安装Mysql数据库|非官方复杂安装,解压即可,操作简单
    我们都知道在官方安装mysql数据库极其复杂,还极大概率遇到各种问题,今天教大家只要解压就可安装完数据库,操作及其简单+绿色。版本包括了mysql8或mysql5,各位各取所需即可。不管你之前是否安装过数据库,只要端口3306不被占用就可以成功安装mysql。下载解压包下载移步https://pan......
  • 技术框架中对高级查询一对多查询的学习
    高级查询之一对多查询查询条件根据游戏名称,查询游戏账号信息我们在之前创建的映射器接口GameMapper.java中添加接口方法,如下: /***根据游戏名查询游戏账号*@paramname游戏名*@return游戏实体类*/publicGameEntityselectGameByName(Str......
  • 金仓数据库数据迁移实战:从MySQL到KES的顺利迁移
    今天我们将开始实践金仓数据库的数据迁移功能。在此之前,我们一直使用的是简化版的Docker镜像,这个版本并没有集成可视化操作工具。因此,为了更方便地进行后续的操作,我们需要额外下载一个Windows版本的安装包并进行安装。需要注意的是,如果你不打算安装数据库,安装过程中可以选择......
  • 学生信息数据库的创建
    需求分析学生信息数据库用来存储学生的一些相关信息,其中包括学生所在院系,学生基础信息,老师信息表,学生总成绩,学生各学科成绩,专业课基础信息。并构建不同的用户使其各自分配不同的权限,对整个数据库进行维护。例如:班主任进行学生总成绩的维护,各科老师对各科成绩表以及专业基础表......