首页 > 其他分享 >「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎

时间:2023-12-02 11:05:56浏览次数:44  
标签:OpenPie 存储 Database PieCloudDB 查询 引擎 云上 数据

10月24日程序员节,拓数派「OpenPie」发布了云原生数据库PieCloudDB Database社区版与企业版。通过重新打造云上的数据库内核,突破了PC时代计算平台的限制,实现云上存算分离。 PieCloudDB 基于云的基础设施,专为云平台打造。

本文整理自拓数派「OpenPie」2022发布会的演讲,将为大家着重介绍PieCloudDB是如何构建新一代云原生存储引擎的。

 

PieCloudDB在存储层的打造过程中,考虑到了数据的分布和集群的弹性,保证数据的安全性。 在设计存储引擎时,PieCloudDB也充分考虑了查询优化器和执行器的演进,以完成分析型任务为基准,减少用户成本,提升读写性能, 并提供完备的事务支持。



Multi-Cloud 云上设施与现代硬件

PieCloudDB中的存储引擎是面向云上对象存储而设计,其核心是数据共享和存算分离,云基础设施大大提升了存储的容量,并将数据共享给多个不同计算资源,弹性大大增加。PieCloudDB 存储引擎还兼容HDFS分布式存储系统,同时也支持运行在网盘和本地盘环境,来满足不同的私有云、公有云和混合云的部署。

为了充分利用现代硬件的性能,PieCloudDB的存储引擎针对性的为现代CPU和GPU的高速缓存访问进行了设计,并且对数据的局部性进行了进一步优化以支持SIMD和并行计算。PieCloudDB 还计划针对现代存储技术和新硬件的使用提供支持和扩展。

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎_数据



数据分布和弹性

考虑到PieCloudDB eMPP(elastic MPP)的分布式设计,数据文件通过一致性hash分布在各个节点中,数据会最终持久化到云存储中。 一般来说,在同一集群内,写入数据的节点也是读取数据的节点,数据文件缓存在本地以减少延时较高的云存储的访问。这个设计减少了数据不必要的转移,并简化了cache的设计。

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎_数据_02

计算节点是无状态的,当集群执行秒级扩容时,如果没有一致性hash的数据移动策略,新的计算节点中将没有缓存数据。在eMPP的架构下,由于”木桶效应”,整体的查询时间由最慢的节点决定,因此这个新的节点将大大影响查询的执行效率。在一致性hash的保证下,每一个节点均移动大致相等的数据量到新的节点,一致性hash的均匀性保证了大部分本地缓存数据的有效性,减少了cache miss,提升查询性能。



数据安全性

在安全方面PieCloudDB提供了坚实健壮的保障。针对于存储引擎中的数据安全这一方面,我们使用透明加密来对数据进行保护。在实现中使用了三层密钥结构,第一级密钥为主密钥负责对第二层密钥的加解密,第二级密钥为表密钥,负责对第三层密钥的加解密,第三级密钥为文件密钥,负责对数据文件加解密。在存储引擎中数据的读写会进行实时的加解密。

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎_数据_03



用户成本(存储成本)

在设计PieCloudDB 存储引擎时,我们充分的考虑到了用户的成本。在云上环境中,用户为查询付费,最大的开销是数据的存储成本。因此我们自动选取适应对应类型的编码进行encoding,节约存储空间。

除此之外,PieCloudDB还采用了压缩算法对数据进行进一步的压缩。在数据查询时,为了减少对象存储的访问开销,PieCloudDB 实现多级别的缓存机制节约成本。同时,这也可以提升查询的性能。



OLAP 性能

针对于分析型的场景,PieCloudDB查询性能有丰富的优化。在存储这一层,使用了行列混合存储。在重组数据时,其具备行存的高效性能、列存的高压缩比、cache line友好、可进行SIMD和并行计算的优势。

PieCloudDB 重新定义了数据在磁盘和内存中的表数据格式,使表中的数据在磁盘上和内存中的数据转换没有额外的成本和开销。所有的数据均能以O(1)的时间复杂度访问,适应随机访问和扫描工作负载。

在此之上,每一个文件块都包含了预计算和统计信息来加速查询。同时对于优化器来说,其使用对应数据表的统计信息来生成最终的执行计划。PostgreSQL 通常使用 ANALYZE 来抽样数据构建统计信息,如果统计信息不准确则无法生成高效的查询计划。在新的存储引擎中,PieCloudDB使用更智能的方式以更快的速度来构造比抽样更准确的统计信息,辅助优化器生成高效的执行计划。

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎_存储引擎_04

PieCloudDB 新的存储引擎通过block文件级别的MVCC使其具备完整的事务支持,来服务各行各业的客户。每个文件块中的数据是否可见,通过查询其所在文件的MVCC信息以及当前的事务隔离级别来判断。

为了支持优化器和执行器的演进,存储引擎在实现时充分考虑到了执行器的向量化、文件查询裁剪和聚集下推扫描的支持。在查询时可减少海量数据的IO并加速计算,大大提升OLAP场景下的分析型任务的查询性能。

「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database 新一代云原生存储引擎_openssl_05

存储是一款数据库的底座,PieCloudDB Database将在存储引擎模块上持续迭代,不断演进,为用户的数据分析提供夯实的基座。

 



关于PieCloudDB

PieCloudDB是一款全新eMPP分布式技术云原生分析型数据库。通过重新打造云上的数据库内核,突破了PC时代计算平台的限制,实现云上存算分离。旨在为企业提供包含实时处理、秒级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎。在云上,计算资源可按需启动,对计算模型以更低成本提供指数级的存储和计算资源,帮助企业的业务模型发现新洞察或者提高精准度,从而建立竞争壁垒。目前,PieCloudDB在金融,医疗,汽车及制造等行业积累了一批种子用户,产品备受业界及用户的高度关注及认可。

标签:OpenPie,存储,Database,PieCloudDB,查询,引擎,云上,数据
From: https://blog.51cto.com/u_16396625/8654060

相关文章

  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database优化器
    10月24日程序员节,拓数派(Openpie)发布了云原生数据库PieCloudDB。PieCloudDB以云计算架构为设计基础,实现云上存算分离,打造了“元数据-计算-存储”分离三层架构。在计算层,PieCloudDB设计了高效的查询优化器和执行器,实现了预计算、聚集下推等多种查询优化策略,保证查询的高效运行,减......
  • 「拓数派(OpenPie)2022发布会实录 」PieCloudDB Database智能化云原生平台
    作为一款云原生eMPP数据库,PieCloudDBDatabase的部署和管控也是云原生的。PieCloudDB为用户提供了智能化云原生平台,提供数据洞察、元数据浏览、用户管理、权限管理、SQL执行、ETL管理等功能,可视化管理平台界面使用户得以更方便地在网页端进行管理。本文整理自拓数派「OpenPie」202......
  • 再度上榜丨冯雷荣登“2022年度智造中国商业领袖” OpenPie
    近日,由数商传媒《数字商业时代》举办的2022年度“智造中国高峰论坛”圆满落幕。拓数派创始人兼CEO冯雷荣登“2022年度智造中国商业领袖”,其曾于2018年,时任PaaS云第一股Pivotal中国公司常务董事、研发中心总经理时,凭借Pivotal中国的成就获此殊荣。时隔四年,如今,冯雷作为一家中国本土......
  • 【DTCC 2022】云原生数据库PieCloudDB全新eMPP架构是如何炼成的
    12月14-16日,第十三届中国数据库技术大会(DTCC2022)在线上隆重召开。拓数派赞助并参与了数据库盛会DTCC,在会议中,拓数派CTO郭罡分享了《云原生数据库PieCloudDB eMPP架构设计与实现》的主题演讲。在演讲中,郭罡分析了传统分布式MPP架构的痛点,介绍了云原生数据库PieCloudDB的eMPP架......
  • 拓数派云原生数据库PieCloudDB与XSKY产品完成兼容性互认证
    数据库作为数字经济建设的基础,是产业数字化、释放数据价值的基石。而良好的生态建设是数据库发展的重要一环。 拓数派的云原生eMPP数据库产品PieCloudDBDatabase原生兼容PostgreSQL/Greenplum生态组件,兼容包括开源空间数据管理组件PostGIS,Apache开源机器学习库Madlib、开源查......
  • PieCloudDB Database 云上商业智能的最佳实践
    「商业智能(BusinessIntelligence,BI)」这个概念最早是Gartner在上个世纪九十年代提出的,它认为从功能上来说,商业智能是一种解决方案,其关键是处理企业来自多个来源的各种数据,提取有用的数据并清理,然后经过抽取(Extraction)、转换(Transformation)和加载(Load),即ETL过程,合并到一个企业级......
  • 『Postgres.Live 技术沙龙回顾』揭秘 PieCloudDB Database eMPP 架构设计
    2月1日,拓数派参与了由开源软件联盟PostgreSQL分会组织的Postgres.Live线上系列沙龙活动。拓数派产品及推广总监吴疆发表主题演讲《PieCloudDB:eMPP云原生数据库》。相关视频回放欢迎访问拓数派B站链接,PPT欢迎前往官网链接获取。本文由演讲内容整理而成。随着计算机技术的发展,”云......
  • OpenPie 和 ChatGPT 聊聊云上数据计算的那些事儿
    要说时下科技圈最火的新技术话题,那就非ChatGPT莫属了。由它引发的各类“人工智能(AI)能否取代人工”的讨论狂飙不停,抛开法律和道德层面的争议,ChatGPT确实可以准确地回答用户大部分的通用知识问题。那么大家是否会好奇,ChatGPT是依靠什么获得了这样“无所不知”的超能力呢?   ......
  • 『坚如磐石的 PieCloudDB』:透明加密模块的设计与实现
    导读:2月17日,由中国开源软件推进联盟PostgreSQL分会&中科院软件所&CSDN联合举办的“中国PostgreSQL数据库生态大会”盛大召开。拓数派(OpenPie)作为冉冉升起的新一代云原生分布式数据库厂商,受邀参加本届大会。 本文为演讲的文字版摘要,主要内容包括: 透明加密的设计思路 透明......
  • 拓数派发布新一代云原生虚拟数仓PieCloudDB
    3月14日,2023拓数派「InfinitePossibilities」战略暨新产品发布会在上海圆满落幕,拓数派创始人兼CEO冯雷(RayVon)重磅发布基于新一代云原生数仓虚拟化打造的全新PieCloudDB「云上云」版。拓数派COO陆公瑜、拓数派CTO郭罡、东吴证券投行部联席总经理席平健博士,元禾重元合伙人张文敏,阿......