2022 年 10 月 22日,在 Data Infa 研究社第 5 期中,我们邀请到张韶全老师分享了《跨多云 Data Mesh 大数据平台:Why, What and How 》受到大家的一致好评。
以下是此次精彩的分享总结,让我们一起回顾一下吧
分享嘉宾
张韶全 茄子快传( SHAREit) 大数据部门总监
SHAREit 是从事移动互联网软件研发,全球移动广告变现解决方案,跨境支付解决方案等互联网业务
分享内容
-
大数据平台的问题和挑战
-
何为跨多云 Data Mesh 大数据平台?
-
如何实现跨多云 Data Mesh 大数据平台?
-
大数据平台的未来规划
大数据平台的问题和挑战
大数据平台经历了从一个数据库的经营报表到数仓交互报表,到现在的数据 EB 级别的数据湖。当前大数据平台的挑战:
-
数据发挥的价值发挥低效
-
响应慢周期长:中心化的数仓团队成为瓶颈
-
数据合作阻力大:不同源数据,不同业务的数据孤立
-
数据系统门槛高:平台不够简单易用,底层不够透明化
-
数据管理成本高昂
-
资源使用低效:云系统的复杂性导致使用效率低
-
治理无从下手:缺少完善的治理手段
何为跨云的 Data Mesh 大数据平台?
原来的大数据部门集中到一个部门,由不同的部门提需求,这种属于典型的中心化数仓架构。基于 Data Mesh 架构提出来:领域业务驱动,自主服务,数据即是产品的一部分, 和更多的管理者结盟统一目标。
支持 Data Mesh需要的前提条件:
-
自助式平台;
-
数据产品化;
-
联邦治理;
SHAREit 提出了新一代的大数据平台解决方案:DataCake。DataCake 继承发扬了 Data Mesh 思想,具备以下特点:
-
一站式:一个集成的工作空间支撑全数据链路数据收集
-
自助化:低门槛,无需专业人士,即可掌控数据&分析
-
跨多云: 云原生,Non verdor lock-in
-
湖仓一体:湖上内置仓,一份存储支持多场景
-
可观测:数据资产,成本可观测,自主治理
-
促分享:一键数据分享合作统一的 Catalog 视图
-
低成本:Serverless,高效的弹性扩缩容
-
开放:核心组件开源,支持多种开源和云商引擎构建
现在平台架构:
在 SHAREit 的大数据平台中也加了 Databend 为平台提供计算及多云整合能力。
如何实现跨多云的 Data Mesh 大数据平台?
提供集成环境一站式部署使用, 开箱即用。
大数据平台的未来规划
最后张韶全老师分享,SHAREit 也计划把他们的 DataCake 产品上线 Cloud 对外提供服务,大家也可以保持关注。
视频回顾
https://www.bilibili.com/video/BV1Ge411G7Dh?t=1937.6
关于 Data Infra 研究社
Data Infra 研究社是 Databend 下面一个围绕大数据相关技术交流的兴趣小组,例如:大数据平台, Data mesh, Modern data stack, Data Dev 等方向。
活动频次:一月1-2次活动
活动发布:Databend 公众号
活动直播渠道
B站:https://www.bilibili.com/video/BV1Ge411G7Dh/?vd_source=dbf34ed83a6d7f27494a1c2bc2c26dfa
视频号: 关注 Databend 公众号
VIP 通道和嘉宾同一会议室:加微信 Databend 获取
活动视频发布:https://space.bilibili.com/275673537
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
-
Databend 文档:https://databend.rs/
-
Wechat:Databend