首页 > 其他分享 >一文了解袋鼠云在实时数据湖上的探索与实践

一文了解袋鼠云在实时数据湖上的探索与实践

时间:2023-09-14 15:55:58浏览次数:30  
标签:www 袋鼠 一文 数据 湖上 实时 https com

近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。
file

如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据处理能力,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战。

因此,袋鼠云基于自研的一站式大数据基础软件——数栈提出相应的实时数据湖解决方案,能够兼容Iceberg、Hudi等数据湖平台。实时数据湖提供了多样化的分析能力,而不限于批处理、流处理、交互式查询和机器学习;提供了ACID事物能力,可以更好的保障数据质量;提供了完善的数据管理能力,包括数据格式、数据schema等;此外,实时数据湖还提供了存储介质可扩展的能力,支持HDFS、对象存储等。从而大大节省了数据存储成本、提升了开发效率,能够更快更好地挖掘数据价值。
file

该方案特点在于CDC数据实时入湖,能够保障技术自主可控、全增量一体化、分钟级时延、链路短、对业务稳定性无影响。

• 实时性高:CDC数据对实时性要求高,数据新鲜度越高,往往业务价值越高

• 历史数据量大:数据库的历史数据规模大

• 强一致性:数据处理必须要保证有序性而且结果需要一致性

• Schema动态演进:数据库对应的Schema会随着业务不断变更

file

在实时入湖落地过程中,研发团队也遇到了诸如小文件影响读写效率;客户群体使用的Flink版本大多还停留在1.12;因此需Hudi适配Flink1.12;存在多套Hadoop集群的场景下存在跨集群的需求等问题,最终都一一克服,提供了完美的解决方案。

实时数据湖中包含实时ETL、离线ETL、OLAP三类任务,这三类任务在从ODS层到ADS层加工的过程中,聚合操作越来越多,IO越来越密集,多个任务SQL中具有相同逻辑的SQL片段。为此,技术团队探索出了物化视图的方案,完成平台化数据湖物化视图管理,Spark、Trino、Flink支持基于数据湖表格式管理物化视图。

在实时数据湖中基于数据湖构建的物化视图可实现流、批和OLAP任务之间共享,从而进一步降低实时数据湖中数据在整条链路中的延时,从而节省计算成本。
file

未来,实时数据湖方案还将持续优化,不断增加平台湖表管理的易用性;引入Paimon,让数栈支持对接Paimon、增加基于Paimon的湖仓一体建设;深入并增强内核,提升入湖的的性能;数据湖提供数据共享、支持多引擎,探索数据湖的安全管理方案。

获取完整PPT:https://www.dtstack.com/resources/1051?src=szsm

想了解更多详情,可点击观看视频讲解:https://www.bilibili.com/video/BV1Yu411w7uc/?spm_id_from=333.999.0.0&vd

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

标签:www,袋鼠,一文,数据,湖上,实时,https,com
From: https://www.cnblogs.com/DTinsight/p/17702714.html

相关文章

  • 一文看懂Apipost IDEA插件2.0
    大家好,Apipost最新推出IDEA插件V2版本!V2版本主要是Apipost符合更多用户的需求而推出,支持在插件中获取token、支持代码完成后在插件中进行API调试,同时也保留了1.0版本部分功能如上传选择目录功能等。V1版本还会继续保留开源,方便各位进行自创魔改。V2版本目前已上架至IDEA插件商......
  • 一文了解机器学习中分类和回归的差异
    本文所有内容整理自网络。完整内容可以点击这里获取:完整资料下载地址前言分类和回归是数据挖掘和机器学习中常见的两个预测问题。分类算法分类算法是拟合一个模型或函数的过程,该模型或函数有助于将数据分为多个类别,即离散值。在分类中,根据输入中给定的一些参数,数据被分类到不同的标......
  • 一文了解工业互联网
    一、什么是工业互联网工业互联网是指将传统工业领域与互联网技术相结合,实现设备、系统和人员之间的信息传递和协同工作,以提高生产效率、降低成本和改善产品质量。   二、工业互联网构成它的构成主要包括以下几个方面: 传感器和物联网设备:工业互联网的基础是传感器......
  • 一文简单了解函数类型
    1.引言函数在Go语言中是属于一等公民,基于此,本文将简单介绍下Go语言中的函数类型,了解下其具体用法,为后续了解函数类型的具体用途打下基础。2.函数类型说明2.1什么是函数类型在Go中,函数是一等公民,这意味着你可以直接使用函数类型,是Go语言的一种内置类型,具有以下通用形式:fun......
  • 一文简单了解函数类型
    1.引言函数在Go语言中是属于一等公民,基于此,本文将简单介绍下Go语言中的函数类型,了解下其具体用法,为后续了解函数类型的具体用途打下基础。2.函数类型说明2.1什么是函数类型在Go中,函数是一等公民,这意味着你可以直接使用函数类型,是Go语言的一种内置类型,具有以下通用形式:fu......
  • 数字钥匙关键技术:UWB(超宽带)实现原理一文讲透
    在之前的文章《一文讲透超宽带(UWB)前世今生》中,我们从起源、定义、标准、发展、应用等角度概述了UWB技术。根据UWB的特性,其基础功能分为:数据传输、雷达成像、测距定位。接下来我们将概述其数据传输和雷达成像功能,并对UWB当前的主要运用:测距定位功能进行深入解析。图1UWB主题图片►......
  • 一文搞定>>、<<、>>>等位运算
    位运算在我们平时开发中很少会用到,以至于它被大多数人所忽略,因此在面试题中能频繁的看到位运算的身影。由于位运算本质是二进制运算,大多数开发者可能会对此比较陌生,本文旨在揭开位运算的神秘面纱,一同探究其本质,帮助大家掌握位运算的方法。位运算包括以下几类:运算符运算规......
  • 一文搞定,PO设计模式详解
    PO模式:全称:pageobjece,分层机制,让不同层去做不同类型的事情,让代码结构清晰,增加复⽤性。PO模式的优势:1)效率⾼:同理,PO模式的逻辑层⽅法有具体定义,情况和元素发⽣变化⼀样修改逻辑层,业务层不变。这样看来结构简单清晰,舒服更符合⼈类习惯,普通⽅式就是继续堆case。2)复⽤多收益⼤:同样......
  • 一文讲懂什么是vlan、三层交换机、网关、DNS、子网掩码、MAC地址
    大家好,我的网工朋友俱乐部公众号和网工交流群建立这么久了,不断的有朋友在后台、群里问到什么是网关、dns、子网掩码……以及三层交换机等用途。这些都是网络的基础,不学扎实了,确实也没办法进阶。本期文章就再给你详细地、通俗地给你一次性说清楚今日文章阅读福利:《全国网工交流群进......
  • 一文教会你连接水晶头
    上文咱们提到网线完全可以自己制作,现在咱们就详细说说,网线压制水晶头的方法:首先第一步,用网线钳的剥线口,卡住网线轻轻旋转,剥除网线外皮。                                           这......