首页 > 其他分享 >领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!

领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!

时间:2023-12-02 12:32:59浏览次数:42  
标签:Pre Database -- PieCloudDB sum Scan Aggregate 翻倍

在大数据时代,如何有效地管理和处理海量数据成为了企业面临的核心挑战。为此,拓数派推出了首款数据计算引擎 PieCloudDB Database,作为一款全新的云原生虚拟数仓,旨在提供更高效、更灵活的数据处理解决方案。

PieCloudDB 的设计理念源于对用户使用体验和查询效率的深度理解。在实现存算分离的同时,PieCloudDB 专门设计和打造了全新的存储引擎「简墨」等模块。针对云场景和分析型场景,PieCloudDB 还设计了高效的预聚集(Pre-Aggregate)特性。本文将详细介绍 PieCloudDB 如何运用预聚集技术优化数据处理流程,改善用户体验。

作为云原生虚拟数仓,PieCloudDB 充分借助云计算所提供的基础设施服务,包括大规模分布式集群、虚拟机、容器等。这些特性使得 PieCloudDB 能更好地适应动态的和不断变化的工作负载需求。同时,PieCloudDB 也积极拓展其自身的特性,实现高可用、易扩展和弹性伸缩,以满足企业不断增长的业务需求。

PieCloudDB 实现了一个重要创新功能:预聚集(Pre-Aggregate)。 该功能通过 PieCloudDB 的全新的存储引擎「简墨」(JANM),在数据插入时即时计算数据列的 Aggregate 信息,并将其预先保存以供后续使用。这种方法摒弃了在查询时进行复杂计算的传统方式,从而大大提升了查询速度。此外,由于聚合数据保存在文件中,可以实现快速访问并直接应用于查询。

PieCloudDB 会根据用户的查询自动生成带有 Pre-Aggregate 的计划,使得查询过程尽可能地快速且准确。 当需要聚合数据时,系统会检查预存储的聚合值,并直接读取符合条件的 Aggregate 数据。这样避免了查询过程中扫描整个数据集的需求,可以大幅提升查询速度。

对于部分满足条件的块,PieCloudDB 将会回归原来的处理方式计算 Aggregate 值。 这样既能利用已经预聚合的数据,又只需计算缺少的部分,从而降低计算成本并提高运算效率。



1 预聚集的原理

为了能够增加 Aggregate 的查询性能,PieCloudDB 采用了以「空间」换取「时间」的策略,在写入数据的时候,在存储层中将相关的 Aggregate 进行预先计算并保存,从而在查询的时候可以快速找到需要的 Aggregate 数据。

上面解决了 Aggregate 数据来源问题,下面将介绍如何拿到预先计算的 Aggregate 数据。为了能够实现正确获取下推的 Aggregate 数据,PieCloudDB 的优化器与执行器被进一步改造,增加了两个新的 Pre-Aggregate 计算节点。改造前后的计划树(plan tree) 的对比如下图所示:

领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!_数据处理

改造前后 plan tree 对比图

存储引擎「简墨」会在数据插入时,即时更新 Aggregate 信息。在上图中的 Pre-Aggregate 计算节点会从 AM(access method)中取出预先计算的 Aggregate 数据,如果没有找到合适的 Aggregate 数据,Pre-Aggregate 计算节点也会从 AM 中找出满足条件的 tuple 计算出对应的 Aggregate 数据,返回给上层计算节点使用。这样就解决了怎么正确找到下推的 Aggregate 数据的问题。

Pre-Aggregate 是 OLAP 优化技术中 Zone Maps 的具体实现。即预先计算一批元组属性值的聚合并预先保存,数据库检查预计算的聚集信息决定是否要访问该 block。即上面所述的如果找到可用的 Aggregate 数据则直接返回,否则访问该 block 检索具体元组。

对于带条件的 Pre-Aggregate 来说,其效果取决于预先计算所涉及的数据范围。PieCloudDB 将预聚集范围缩小至块文件,针对每个块文件分别进行预计算存储,从而保证带条件的预聚集查询效果。



2 预聚集的使用演示

下面给出了如何开启 Preagg Block Scan 以及支持 Block Skipping 的 Preagg Bitmap Block Scan 的使用方式。最后给出了对应的性能对比图。

2.1 Preagg Block Scan 使用方式

-- 创建 t 表
create table t(a int, b int, c int);

-- 写入三行数据
insert into t values(1,2,3);
insert into t values(3,3,5);
insert into t values(4,4,6);

-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;

-- 执行如下的 query
explain (costs off) select sum(b), avg(c), count(*) from t;
                   QUERY PLAN
------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Pre-Aggregate Block Scan on t
 Optimizer: Postgres query optimizer
(4 rows)

-- 开启后的执行结果
select sum(b), avg(c), count(*) from t;
 sum |        avg         | count
-----+--------------------+-------
   9 | 4.6666666666666667 |     3
(1 row)

-- 关闭 preagg 
set pdb_enable_preagg = off;

-- 执行同一条 query
explain (costs off) select sum(b), avg(c), count(*) from t;
                   QUERY PLAN
------------------------------------------------
 Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Seq Scan on t
 Optimizer: Postgres query optimizer
(4 rows)

-- 关闭后的执行结果
select sum(b), avg(c), count(*) from t;
 sum |        avg         | count
-----+--------------------+-------
   9 | 4.6666666666666667 |     3
(1 row)

2.2 Preagg Bitmap Block Scan 使用方式

create table t(a int, b int);
insert into t values(generate_series(1, 20), generate_series(100, 120));
insert into t values(generate_series(21, 60), generate_series(121, 160));

-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;
-- 下面是开启 Pre-Aggregate Bitmap Block Scan 的几个 guc
set enable_seqscan = off;
set enable_bitmapscan = on;
set enable_indexscan = on;

-- 执行如下的 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;
                          QUERY PLAN
---------------------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Partial Aggregate
               ->  Pre-Aggregate Bitmap Block Scan on t
                     Recheck Cond: ((a > 10) AND (a < 50))
                     ->  Bitmap Index Scan on t
                           Index Cond: ((a > 10) AND (a < 50))
 Optimizer: Postgres query optimizer
(8 rows)

-- 开启后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;
 max | sum
-----+------
  49 | 1170
(1 row)

-- 关闭 preagg 
set pdb_enable_preagg = off;

-- 执行同一条 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;
                          QUERY PLAN
---------------------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Partial Aggregate
               ->  Bitmap Heap Scan on t
                     Recheck Cond: ((a > 10) AND (a < 50))
                     ->  Bitmap Index Scan on t
                           Index Cond: ((a > 10) AND (a < 50))
 Optimizer: Postgres query optimizer
(8 rows)

-- 关闭后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;
 max | sum
-----+------
  49 | 1170
(1 row)

2.3 性能对比

测试表:

create table preaggdata (a int, b int);

测试语句:

explain analyze select sum(a), avg(a), count(*), max(b) from preaggdata;

领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!_虚拟机_02

耗时对比图如下所示:

领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!_agg_03

耗时对比图

从上面的测试数据和对比图可以看出,未开启 Pre-Agg 时,随着数据量的增大,耗时不断增大,且增加的速度也会越来越快;而开启 Pre-Agg 时,耗时是平稳的增长的,增长的速度也不快。当数据量达到 10000K 时,实现了近 28 倍的速度提升。



3 预聚集未来演变之路

目前, Pre-Aggregate 采用「空间」换「时间」的策略来提升性能效率。为了扩大 Pre-Aggregate 的应用范围,优化用户体验,我们将不断推动技术研发,扩大应用场景,并提供更加丰富、多元的功能。

无论是通过优化数据处理方式,拓展支持的函数类型,还是引进新的查询处理机制,我们都在锲而不舍地努力实现这一目标。相信很快,Pre-Aggregate 将能够为复杂的查询场景提供更高效、更精准的解决方案,从而逐步深化其在数据分析和处理领域的应用影响力。

领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!_云原生_04

标签:Pre,Database,--,PieCloudDB,sum,Scan,Aggregate,翻倍
From: https://blog.51cto.com/u_16396625/8655011

相关文章

  • PieCloudDB Database 自研内存管理器 ASanAlloc:为产品质量保驾护航
    内存管理是计算机科学中至关重要的一部分,它涉及到操作系统、硬件和软件应用之间的动态交互。有效的内存管理可以确保系统的稳定性和安全性,提高系统运行效率,帮助我们最大限度地利用有效的内存资源,合理分配和回收内存,预防各类内存错误。在计算机科学的早期,内存管理是由程序员手动完成......
  • PieCloudDB Database 再次升级!社区版全新版本发布,免费下载
    10月24日,2023拓数派年度技术论坛在上海圆满落幕。拓数派正式发布大模型数据计算系统「πDataCS」,基于云原生技术重构数据存储和计算,重塑数仓、向量和机器学习等数据计算引擎,实现“一份数据存储,多引擎数据计算”。作为πDataCS首款计算引擎,PieCloudDBDatabase再度升级,推出全新......
  • 【PostgreSQL 数据库线下沙龙(武汉站)】PieCloudDB Database :云原生分布式虚拟数仓的诞
    2023年6月3日,开源软件联盟PostgreSQL中文社区在武汉举办了技术沙龙活动。本次活动主题围绕未来数据库展开讨论和分享。通过探讨未来数据库的概念和特点,为智能化时代的发展提供更多的支持和服务。同时,通过探讨数据库和AI技术的共生共荣,推动数字经济的发展和创新,开创未来数据库的新......
  • 【PostgreSQL 数据库技术峰会(成都站)】云原生虚拟数仓 PieCloudDB Database 的架构和关
    2023年6月17日,中国开源软件推进联盟PostgreSQL分会在成都举办了数据库技术峰会。此次峰会以“新机遇、新态势、新发展”为主题,结合当下信创热潮、人工智能等产业变革背景,探讨PostgreSQL数据库在这些新机遇下的发展前景。峰会邀请众多行业大咖、学术精英、技术专家、技术爱好者......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database元数据管理
    10月24日程序员节,拓数派(Openpie)发布了云原生数据库PieCloudDB。PieCloudDB以云计算架构为设计基础,实现云上存算分离,打造了“元数据-计算-存储”分离三层架构。传统MPP数据库的元数据与用户数据是紧密耦合的,元数据与用户数据解耦合是PieCloudDB作为一款云原生数据库的重要特征。......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database分布式引擎
    10月24日程序员节,拓数派发布了云原生数据库PieCloudDB社区版与商业版。本文整理自拓数派「OpenPie」2022发布会的演讲,将从PieCloudDBDatabase的计算、存储、事务三个方面来介绍分布式引擎模块。计算首先为大家介绍的方面是计算。PieCloudDB通过重新打造云上的数据库内核,突破......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎
    10月24日程序员节,拓数派「OpenPie」发布了云原生数据库PieCloudDBDatabase社区版与企业版。通过重新打造云上的数据库内核,突破了PC时代计算平台的限制,实现云上存算分离。PieCloudDB基于云的基础设施,专为云平台打造。本文整理自拓数派「OpenPie」2022发布会的演讲,将为大家着重介......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database优化器
    10月24日程序员节,拓数派(Openpie)发布了云原生数据库PieCloudDB。PieCloudDB以云计算架构为设计基础,实现云上存算分离,打造了“元数据-计算-存储”分离三层架构。在计算层,PieCloudDB设计了高效的查询优化器和执行器,实现了预计算、聚集下推等多种查询优化策略,保证查询的高效运行,减......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database智能化云原生平台
    作为一款云原生eMPP数据库,PieCloudDBDatabase的部署和管控也是云原生的。PieCloudDB为用户提供了智能化云原生平台,提供数据洞察、元数据浏览、用户管理、权限管理、SQL执行、ETL管理等功能,可视化管理平台界面使用户得以更方便地在网页端进行管理。本文整理自拓数派「OpenPie」202......
  • 【DTCC 2022】云原生数据库PieCloudDB全新eMPP架构是如何炼成的
    12月14-16日,第十三届中国数据库技术大会(DTCC2022)在线上隆重召开。拓数派赞助并参与了数据库盛会DTCC,在会议中,拓数派CTO郭罡分享了《云原生数据库PieCloudDB eMPP架构设计与实现》的主题演讲。在演讲中,郭罡分析了传统分布式MPP架构的痛点,介绍了云原生数据库PieCloudDB的eMPP架......