首页 > 其他分享 >数据中台选型必读(二):数据中台如何搭建元数据管理中心

数据中台选型必读(二):数据中台如何搭建元数据管理中心

时间:2022-11-09 21:34:32浏览次数:56  
标签:数据中心 标签 选型 数据管理 必读 数据源 血缘 数据

在数据中台选型必读(一)中,我们明确了元数据管理是数据中台实现数据共享和复用的基础;也通过Metacat和Apache Atlas了解了现在业界主流的元数据管理产品是啥样的。

元数据管理架构

接下来,我们看看数据中台如何搭建元数据中心。

01

元数据中心五个关键目标

在搭建之前,需要明确元数据中心实现的五个关键目标:

第一,多业务线、多租户支持。

电商、短视频、内容推送等都是不同的业务线,同一个业务线内,也分为算法、数仓、风控等多个租户,因此,元数据中心必须支持多业务线、多租户。

传统模式下的烟囱式业务线系统

第二,多数据源的支持。

元数据中心必须要能够支持不同类型的数据源,同时还要支持相同数据源的多个集群。为了规范化管理,还需要考虑将半结构化的KV 也纳入元数据中心的管理(比如Kafka、Redis、HBase等)。

这些系统本身并没有表结构元数据,因此,需要能够在元数据中心里定义Kafka中每个Topic的每条记录JSON中的格式,每个字段代表什么含义。

麦聪DaaS平台是唯一企业级支持所有主流数据源的产品

第三,支持字段级数据血缘查询。

元数据中心需要支持数据血缘的实时采集和高性能的查询,与此同时,查询必须支持字段级别的血缘。

字段血缘在做溯源的时候非常有效。因为大数据加工链路的下游是集市层,为了方便使用者使用,一般都是一些很宽的表,俗称“大宽表”。

字段级数据血缘查询

这个表的上游可能是有几十个表产生的,如果不通过字段血缘限定溯源范围,就会导致搜索范围变得很大,无法快速地精准定位到有问题的表。

此外,数据血缘还必须要支持生命周期管理,已经下线的任务,如果没有继续被调度,过期的血缘关系应该予以清理。

第四,与大数据平台集成。

元数据中心需要与Ranger集成,实现基于tag的权限管理方式。

在元数据中心中可以为表定义一组标签,Range可以基于这个标签,对拥有某一个标签的一组表按照相同的权限授权。

数据目录标签管理

这种方式大幅提升了权限管理的效率。例如,对于会员、交易、毛利、成本,可以设定表的敏感等级,然后根据敏感等级,设定不同的人有权限查看或编辑。

此外,元数据中心作为基础元数据服务,包括自助取数分析系统,数据传输系统,数据服务,都应该基于元数据中心提供的统一接口获取元数据。

第五,支持对表和表中的字段打标签。

通过丰富的不同类型的标签,可以完善数据中台数据的特征,比如指标可以作为一种类型的标签打在表上,主题域、分层信息都可以作为不同类型的标签关联到表。

02

元数据中心架构

基于以上五个目标,搭建的元数据中心如下:

元数据中心架构

这个图按照功能模块分为数据血缘、数据字典和数据特征。

数据血缘由采集端、消息中间件、消费端以及血缘清理模块组成。

基于Hive Hook,Spark Listener,Flink Hook可以获取任务执行时输入表和输出表,推送给统一的消息中间件(Kafka),然后消费端负责将血缘关系沉淀到图数据库中。

图数据库选择Neo4j,主要考虑是性能快、部署轻量化、依赖模块少,当然,开源的Neo4j没有高可用方案,并且不支持水平扩展。

但是,因为单个业务活跃的表规模基本也就在几万的规模,所以单机也够用,高可用可以通过双写的方式实现。

此外,血缘还有一个清理的模块,主要负责定时清理过期的血缘,一般可以把血缘的生命周期设置为7天。

数据字典部分,参考Metacat实现,由一个统一的 Connector Mananger负责管理到各个数据源的连接。

对于Hive、MySQL元数据中心并不会保存系统元数据,而是直接连数据源实时获取;对于Kafka、HBase、Redis等KV,在元数据中心里内置了一个元数据管理模块,可以在这个模块中定义Value的schema信息。

数据特征主要是标签的管理以及数据的访问热度信息。

元数据中心内置了不同类型的标签,同时允许用户自定义扩展标签类型。指标、分层信息、主题域信息都是以标签的形式存储在元数据中心的系统库里。

同时,元数据中心允许用户基于标签类型和标签搜索表和字段。此外,元数据中心统一对外提供了API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过API接口获取元数据。

最后,Range可以基于元数据中心提供的API接口,获取标签对应的表,然后根据标签更新表对应的权限,实现基于标签的权限控制。

那么,这个元数据中心有没有实际的界面?它长什么样子?用户如何使用这个元数据中心?

03

元数据中心界面

数据地图是基于元数据中心构建的一站式企业数据资产目录,可看作是元数据中心的界面。

数据开发、分析师、运营、算法工程师可以在数据地图上完成数据的检索,解决了“不知道有哪些数据?”“到哪里找数据?”“如何准确的理解数据”等难题。

麦聪提供类Google式搜索,帮助业务人员找到数据

数据地图提供了多维度的检索功能,使用者可以按照表名、列名、注释、主题域、分层、指标进行检索,查询结果按照匹配相关度进行排序。

考虑到数据中台中有一些表是数仓维护的表,有一些表数仓已经不再维护,在结果排序的时候,增加了数仓维护的表优先展示的规则。

数据地图还提供了按照主题域、业务过程导览,可以帮助使用者快速了解当前有哪些表可以使用。

当使用者定位到某一个表打开时,会进入详情页,详情页中会展示表的基础信息,字段信息、分区信息、产出信息以及数据血缘,从而可以帮助使用者了解这个表的来源和去向。

此外,数据地图可提供数据预览的功能,考虑到安全性因素,只允许预览 10 条数据,用于判断数据是否符合使用者的预期。

与此同时,提供收藏功能,方便使用者快速找到自己经常使用的表。当数据开发、分析师、数据运营找到自己需要的表时,在数据地图上可以直接发起申请对该表的权限申请。

数据中台元数据中心的搭建就全部介绍完了,下一章我们将系统介绍元数据在指标管理、模型设计、数据质量和成本治理四个领域发挥的作用,这些领域实现了数据中台OneData的核心理念。

数据中台系列文章大家可以移步主页合集查看。

麦聪软件,全球领先的DaaS厂商,数据中台2.0领导者。世界500强集团中已有30多家选用,两年内帮助近400家企业数字化转型更进一步。核心产品麦聪DaaS平台包含统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务系列功能,欢迎大家带着企业数字化问题与我们一起讨论。

标签:数据中心,标签,选型,数据管理,必读,数据源,血缘,数据
From: https://blog.51cto.com/u_12208051/5838749

相关文章

  • 数据中台选型必读(四):要想中台建的好,数据模型得做好
    在数据中台构建之前,分析师经常发现自己没有可以复用的数据集,不得不使用原始数据依次进行数据的清洗、加工、计算指标。重复进行原始数据的清洗加工由于业务部门的分析师......
  • 热更新技术探讨,该如何选型
    为了照顾萌新童鞋,最开始还是对热更新的概念做一个通俗易懂的介绍。热更新用通俗的讲就是软件不通过应用商店的软件版本更新审核,直接通过应用自行下载的软件数据更新的行为。......
  • HM-RocketMQ2.1【案例介绍、技术选型】
    1案例介绍1.1业务分析模拟电商网站购物场景中的【下单】和【支付】业务1.1.1下单用户请求订单系统下单订单系统通过RPC调用订单服务下单订单服务调用优惠券服务......
  • 人工智能必读书目
    2人工智能必读书籍电子版:《深度学习花园书》《OpenCV官方中文版》李沐《动手学深度学习中文版》《1天入门深度学习》3超详细计算机视觉书籍:邱锡鹏《神经网络与深度学习》......
  • 数据中台选型前必读:到底什么企业适合上数据中台?
    数据中台虽然已经在口碑上跌下神坛,甚至一些企业开始拆中台。但是,笔者在客户咨询过程中经常遇到一种情况,企业仍然喜欢打着“数据中台”的名义沟通项目需求,但背后的需求很多时......
  • 机械视觉之硬件选型
    一,相机选型1.1.面阵相机和镜头选型已知:被检测物体大小为A×B,要求能够分辨率小于C,工作距离为D[1]相机选型步骤:(1).相机的最低分辨率=(A×B)/(C×C),(2).相机在选型时,......
  • 前端大数据可视化02-数据可视化前端技术选型
    数据可视化解决方案前端数据可视化解决方案如下:底层引擎SkiaSkia 是Chrome和Android的底层2D绘图引擎,具体可参考百度百科,Skia采用C++编程,由于它位于浏览器......
  • 推荐10本大数据领域必读的经典好书(火速收藏)
        写博客也已经快一年了,从去年的1024到现在金秋10月已纷至沓来。回顾这一年所发布的原创文章,基本都是与大数据主流或者周边的技术为主。本篇博客,就为大家介绍几篇......
  • IM消息ID技术专题(七):网易严选分布式ID的技术选型、优化、落地实践
    1、引言在《IM消息ID技术专题》系列文章的前几篇中,我们已经深切体会到消息ID在分布式IM聊天系统中的重要性以及技术实现难度,各种消息ID生成算法及实现虽然各有优势,但受制......
  • GDT放电管选型温馨提示-优恩
    ​GDT放电管选型主要有以下几点需要注意。一、GDT放电管的续流电压只有几十伏,在供电电路中不能单独使用GDT放电管。由于电源电路的工作电压大于GDT放电管的续流电压,GDT放电......