首页 > 其他分享 >MRS+LakeFormation:打造一站式湖仓,释放数据价值

MRS+LakeFormation:打造一站式湖仓,释放数据价值

时间:2023-02-14 17:01:14浏览次数:51  
标签:LakeFormation MRS 华为 湖仓 权限 数据

摘要:华为LakeFormation是企业级的一站式湖仓构建服务。

本文分享自华为云社区《华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值】》,作者:breakDawn 。

1 背景

1.1 数仓和数据湖的概念

数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。

  • 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
  • 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。

1.2 传统湖仓技术的挑战

以上技术在多年的实践中,逐步衍生出了以下的一些挑战:

  • 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
  • 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
  • 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。

上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享,避免其中额外的ETL成本以及降低链路的延时。

1.3 湖仓一体架构的出现

为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。

2 华为lakeFormation服务关键能力

华为LakeFormation是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎(Hive、Spark等)及大数据云服务(MRS等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:

  • 丰富的元数据和数据权限管理

华为lakeformation支持Catalog和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方ETL进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。

  • 生态开放

华为LakeFormation兼容社区接口、支持平滑对接和迁移,提供了兼容Hive/Spark/Flink/Trino社区的元数据接口,支持计算引擎平滑对接,同时兼容Ranger的权限接口,支持一次授权,统一生效。

  • 大规模、高可靠

华为LakeFormation支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多AZ的容灾能力,可为业务持续性提供稳定保障,且采用Serverless架构,开箱即用,简单易上手。

3 华为云MRS支持lakeformation创造数据价值

3.1 Lakeformation给MRS带来的场景价值

以数智融合场景为例,当大数据用户在MRS中创建了表T1时, 数仓用户可通过lakeformation观察到表T1的元数据,并通过其他MRS集群中写入正确的数据内容。

当用户希望通过华为MRS读取T1数据时,可借助LakeFormation查看T1表,再进行T1数据的获取,整个过程中减少了多个MRS集群协同运作时的复杂ETL操作,大大提升了数据使用的效率。

另外,当企业用户的安全管理员希望对不同MRS集群中同一业务类型的元数据进行ranger权限限制时,可通过LakeFormation进行一次授权,统一生效,充分提高了管理效率,简化管理流程。

3.2 MRS服务对接lakeformation能力展示

华为MRS用户可基于最新上线的LakeFormation数据连接能力,实现LakeFormation实例的创建和授权。

在MRS控制台的数据连接页面,支持创建如下图所示的LakeFormation数据连接:

建立完成LakeFormation数据连接后,即可在MRS集群概览中,配置该数据连接,实现MRS和LakeFormation之间的数据关联。

后续再根据产品资料指导完成MRS集群组件相关配置后, 即可正常使用LakeFormation统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。

当用户在LakeFormation中针对MRS集群的catalog建立了department表后

其他用户可在对应MRS集群的hive客户端中观察这个department表的元数据。

反过来,用户通过MRS的hive客户端创建一个employe表后,可以在LakeFormation中看到该元数据信息。

另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到MRS的权限管理组件中。

4 总结

对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

 

点击关注,第一时间了解华为云新鲜技术~

标签:LakeFormation,MRS,华为,湖仓,权限,数据
From: https://www.cnblogs.com/huaweiyun/p/17120155.html

相关文章

  • MRS+LakeFormation:打造一站式湖仓,释放数据价值
    摘要:华为LakeFormation是企业级的一站式湖仓构建服务。本文分享自华为云社区《​​华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值】​​》,作者:breakDawn。1......
  • 经济下行基建托底,偶数湖仓一体打造坚实新基建数字底座
    据人民网报道,今年五一全国国内旅游收入646.8亿元,同比减少42.9%,消费低迷、出口放缓。2022年国内生产总值(GDP)预期增长如何做到5.5%,政府给出了答案——新基建。基建托底让美国......
  • 偶数科技:基于OushuDB的新一代云原生湖仓一体为企业助力
    实时性数据分析需求暴增,偶数湖仓一体为企业助力在愈发复杂的大数据场景下,数据仓库与数据湖各自的弊端开始显现,湖仓一体架构走向舞台中央。在国外有两种流行的实现数据湖仓......
  • 人柱力和佩恩六道,谁才是湖仓一体的终极形态?
    很多小伙伴一直搞不懂什么是湖仓一体,查阅很多资料得到的都是基于不同厂商的产品和方案介绍,而非清晰的概念与行业共识,所以笔者特别策划了一篇湖仓一体的比较分析,通过《火影忍......
  • MRS芯片状态错误排查方向
    1.如手里的LINK板子标注是WCH-LINK,而不是WCH-LINKE,那么与开发板连接线最好别超过15CM2.芯片供电是否正常,VDDA和VDD要正常供电2.检查连线是否正确,SWDIO-PA1......
  • 数据仓库、数据湖、湖仓一体,究竟有什么区别
    数据,已经成为了企业的生命线与核心资产,数据管理和数据分析成为非常重要的应用领域。出于对数据管理领域的关注,不同行业也逐步提升了对数据存储、数据治理及数据分析能力的......
  • MRS_MounRiver安装与驱动相关问题汇总
    解决问题如下:MounRiver下载与安装若MounRiver某些功能不全或插件没安装MounRiver下载与安装MRS官网下载:http://www.mounriver.com/downloadWindows环境解压后直接运行MounR......
  • 开源数据湖仓:Delta vs. Iceberg vs. Hudi vs. Kudu vs. Hologres
    深度对比Delta、Iceberg和Hudi三大开源数据湖方案_开源_胡争(子毅)_InfoQ精选文章https://www.infoq.cn/article/fjebconxd2sz9wloykfo替换Kudu,Hologres助力好未来网校实......
  • MRS_外部库相关问题汇总
    解决问题如下:CH32V307使用IQMath库时使用MRS时,当使用到math数学库CH32V307使用IQMath库时CH32V307是支持硬件浮点的,可以是math.h中的sinf。IQMath主要是为没有硬件浮点的MC......
  • MRS_MounRiver安装与驱动相关问题汇总
    解决问题如下:若MounRiver某些功能不全或插件没安装若MounRiver某些功能不全或插件没安装该问题与安装位置无关。为防止杀毒软件误拦截,建议关闭此类软件后重新下载并安装MRS......