首页 > 其他分享 >GaussDB(DWS)基于Flink的实时数仓构建

GaussDB(DWS)基于Flink的实时数仓构建

时间:2024-04-18 10:26:08浏览次数:31  
标签:DWS 数仓 GaussDB Flink 实时 增量

本文分享自华为云社区《GaussDB(DWS)基于Flink的实时数仓构建》,作者:胡辣汤。

大数据时代,厂商对实时数据分析的诉求越来越强烈,数据分析时效从T+1时效趋向于T+0时效,为了给客户提供极速分析查询能力,华为云数仓GaussDB(DWS)基于流处理框架Flink实现了实时数仓构建。在本期《GaussDB(DWS)基于Flink的实时数仓构建》的主题直播中,华为云数仓GaussDB(DWS)解决方案专家Eric老师,为您深度解析GaussDB(DWS)+Flink如何增强湖仓增量数据在不同数据模型层之间的实时流动能力,如何为消息数据流提供高性能通用入库能力,又如何构建极致的端到端实时数仓解决方案。

1、增量计算的背景

随着数智化时代的到来,数据量不断增长,为了充分挖掘数据价值,实时获取数据动态,GaussDB(DWS)通过与流引擎Flink结合,优化ETL Pipeline,从而数据分析时效实现T+0。

Flink是一款开源的流处理框架,它能够实时处理大规模数据流,并具有高可靠性和高性能的特点。Flink支持流式数据处理、批处理和图形处理等多种计算模式,并提供了丰富的API和工具,可以方便地进行数据处理和分析。GaussDB(DWS)与Flink结合构建下一代Stream Warehouse,实现增量计算,可以为用户提供更加全面、高效的数据处理和分析能力。

为什么需要增量计算能力?增量计算能力解决了哪些场景的痛点问题?

  • 高性能场景

一些需要高性能的典型场景如下:

(1)增量数据的实时ETL并更新物化视图,秒级更新;

(2)数据在仓湖之间实时流动能力;

(3)实时流数据不落盘,直达实时大屏。

  • 数据入库场景

Kafka的数据直接入湖

2、GaussDB(DWS)+Flink实现增量计算的架构设计

GaussDB(DWS)与流引擎结合,实现企业数仓模型的分层、增量化加工,统一批流处理逻辑,一站式支持批、流、交互式、点查等多种场景,简化数据生产线架构复杂度,构建新一代实时增量数仓,满足企业日趋便捷化的数据生产线场景。

三大实时能力

GaussDB(DWS)

Flink

实时入出仓

提升入库性能,支持Binlog表CDC功能,实现 “流表一体”

GaussDB(DWS)对接Flink元数据,GaussDB(DWS)可以作为Flink的源表、结果表

实时增量加工

支持基于数据流表达的增量加工

复杂SQL下推GaussDB(DWS),流表关联,多流关联等

实时查询

支持数据高效点查

GaussDB(DWS)对接Flink元数据,GaussDB(DWS)可以作为Flink的维表,支持维表点查

如下图,增量数据可以被流引擎实时地感知捕获到,并运行预置的增量计算任务,然后再写回到数仓的下一层模型里面。通过几次流引擎的迭代,使得贴源层的增量数据能迅速的反映到明细层以及最终的集市层,来支撑实时的BI报表分析、交互式分析等业务场景。

3、 GaussDB(DWS)+Flink增量计算能力图介绍

GaussDB(DWS)结合Flink的能力构建,涵盖以下四大功能:

Catalog

打通Flink元数据与湖仓元数据。

Source

仓内表通过Binlog将增量数据暴露出来让Flink及时感知,从而驱动实时增量数据运算任务的开始。

Source connector算子,可以将一些条件下推至仓中完成点查任务。

Sink

Sink connector算子可以将job中的数据写回数仓中。

流维

流维算子提供了流数据关联维表的能力。

GaussDB(DWS)结合Flink的非功能性构建:

  • CKPT建设

每个算子implements flink的指定接口,将计算中间结果持久化下去,并做到功能幂等,即可接入flink灾难恢复处理能力,做到job的端到端数据exactly once。

4、 生态工具streamer介绍

为了便于用户一键操作数据入库,GaussDB(DWS)研发了streamer生态工具,用户不再需要自己写SQL,只需要在IDE中进行操作。

操作步骤如下:

第一步:配置kafka及数仓表。

第二步:创建POJO类分别对应kafka消息体及数仓表行数据。

第三步:编写自定义算子,实现自定义Mapping功能。系统提供默认1对1 Mapping算子,可直接使用。

本期分享到此结束,更多关于GaussDB(DWS)产品技术解析、数仓产品新特性的介绍,请关注GaussDB(DWS)开发者平台,GaussDB(DWS)开发者平台为开发者们提供最新、最全的信息咨询,包括精品技术文章、最佳实践、直播集锦、热门活动、海量案例、智能机器人。让您学+练+玩一站式体验GaussDB(DWS)。

GaussDB(DWS)开发者平台链接:https://bbs.huaweicloud.com/contents/dws/learning.html

点击关注,第一时间了解华为云新鲜技术~

 

标签:DWS,数仓,GaussDB,Flink,实时,增量
From: https://www.cnblogs.com/huaweiyun/p/18142923

相关文章

  • 实时数仓构建:Flink+OLAP查询的一些实践与思考
    今天是一篇架构分享内容。1.概述以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓,其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题。很多人一提起实时数仓,就直接大谈特谈Hudi,Flink的流批一体等,但实......
  • 数仓调优实战:GUC参数调优
    本文分享自华为云社区《GaussDB(DWS)性能调优系列实战篇七:十八般武艺之GUC参数调优》,作者:黎明的风。1.前言适用版本:【8.1.1及以上】GaussDB(DWS)性能调优系列专题文章,介绍了数据库性能调优的思路和总体策略。在系统级调优中数据库全局的GUC参数对整体性能的提升至关重要,而......
  • 数仓建模—建模方法论之Data Vault 建模
    数仓建模方法论—DataVault建模除了Kimball的维度建模理论,DataVault也是数据仓库建模的一种方法,最早由DanLinstedt在20世纪90年代提出,主要应用于企业级数据仓库建模。不同于三范式数据仓库模型、维度模型,DataVault模型主要用于存储来自多个业务系统的完整的历史......
  • 离线数仓(九)【DWS 层开发】
    前言    上一个DWD层用了半个月时间,但是慢有慢的好处;今天开始DWS层的学习,目标是4月初把项目完成,完了赶紧从头回顾一遍项目。    今天操场跑了20分钟,顺便在这里记录一下,现在每周只有没早八的时候能跑一下了,近一年没有好好跑步了,这个习惯应该找回来了......
  • 解密数仓的SQL ON ANYWHERE技术
    本文分享自华为云社区《GaussDBDWS的SQLONANYWHERE技术解密》,作者:tooooooooooomy。1.前言适用版本:【8.1.1(及以上)】查询分析是大数据要解决的核心问题之一,虽然大数据相关的处理引擎组件种类繁多,并提供了丰富的接口供用户使用,但相对传统数据库用户来说,SQL语言依然是使用最......
  • 详解数仓对象设计中序列SEQUENCE原理与应用
    本文分享自华为云社区《GaussDB(DWS)对象设计之序列SEQUENCE原理与使用方法介绍》,作者:VV一笑。1.前言适用版本:8.2.1及以上版本序列SEQUENCE用来生成唯一整数的数据库对象,本文对序列SEQUENCE的使用场景、使用方法及相关函数进行了介绍,并针对序列SEQUENCE在使用中容易遇到的问......
  • 探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析
    华为云数仓GaussDB(DWS)研发专家高若岳老师,深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接。随着智能数据时代的到来,数据量爆发式增长,数据形态呈海量化和多样化发展,不再是单一的结构化数据。从海量和多样化的数据做融合分析,创造更多业务价值的诉求日益强烈。在本期《Ga......
  • 实时数仓项目《二》-利用chatgpt prompt完成基础维表的创建
    系列文章:实时数仓项目《一》-实时数仓架构-CSDN博客目录5.ods->dwd:维表关联方案及维表加工、导入hbase5.1维表关联方案5.2退维后结果去向5.3创建维表:基础业务库表数据同步到hbase5.3.1cdc读取mysql数据,生成临时映射表5.3.2将目标表映射到Hbase中,生成临时映射......
  • 大数据数仓理论1.1-离线
    分区静态分区        内存将划分为多个区域,每个区域对应一个分区,当程序访问内存时系统将为其分配一个固定大小的分区;    优点:简单易于管理    缺点:浪费资源,内存碎片化积多动态分区            内存会划分为不同大小的分区,程......