首页 > 其他分享 >数据中台选型必读(一):元数据管理是数据使用与共享的根基

数据中台选型必读(一):元数据管理是数据使用与共享的根基

时间:2022-11-09 21:34:45浏览次数:45  
标签:方式 数据源 Metacat 选型 数据管理 必读 Atlas 血缘 数据

在上个系列:数据中台的前世今生中,我们介绍了随着时代发展,为解决呈指数增长的数据分析需求而出现的一系列技术和产品,从数据仓库、数据湖到大数据平台再到数据中台。

而数据中台的核心,就是解决数据孤岛问题,强调数据统一管理和避免重复造轮子,是对数据服务的共享以及复用。

某数据中台架构

架构数据中台,就要确保全域指标业务口径一致。因此,首先就需要梳理原先口径不一致的、重复的指标,从而整合成一个统一的指标字典。

这项工程的前提——厘清这些指标的业务口径、数据来源和计算逻辑,而关于指标的一切信息,就是元数据(Metadata),它也被形象地称为“描述数据的数据”。

01

元数据及其分类

“173、185、90、87...”看到这样一串数字,大家会想到什么?

“身高”、“体重”还是公司员工的“代号”?当没有一个描述和定义的时候,数据会变得没有意义。而元数据就是描述数据的数据,就类似一列数据的列名一样。

在数据中台领域中,一般将元数据划为三类:数据字典、数据血缘和数据特征。

数据字典:诸如表名、注释信息、表的产出任务、表字段信息、含义和字段类型等,描述数据的结构信息(如图);

数据字典

数据血缘关系:描述表的继承关系,由哪些表经过哪些计算任务得到的。数据血缘一般会帮我们做影响分析和故障溯源。

比如有一天,你的老板看到某个指标的数据违反常识,让你去排查这个指标计算是否正确,你首先需要找到这个指标所在的表,然后顺着这个表的上游表逐个去排查校验数据,才能找到异常数据的根源。

数据特征:数据的属性,比如存储空间大小、访问热度、主题域、分层、表关联指标等(如图)。

数据特征

在实际的业务场景中,元数据的种类非常多,因此,为了管理这些元数据,此时必须要构建一个元数据中心。

02

元数据管理——Metacat

当前,业界已经存在很多元数据管理产品,我们先通过这些产品了解元数据管理,再看如何搭建数据中台的元数据中心。

Metacat擅长管理数据字典,Apache Atlas擅长于管理数据血缘,在这里,我们重点介绍这两款产品。

元数据管理概念图

Netflix拥有自创的大数据平台,其大数据平台的核心架构涉及三项关键服务:执行服务(Genie)、元数据服务和事件服务。

多年前,当Netflix使用Pig作为ETL 语言,Hive作为专用查询语言时,发现由于Pig本身并不具备元数据系统,因此,考虑是否需要构建一个可以在两者之间进行互操作的方案。

于是,在这样的背景下,Metacat诞生了。

这个系统本质上是数据源可扩展的集成式设计(如图):充当了所有数据存储的元数据访问层,是各种计算引擎可以用来访问不同数据集的集中式服务。

数据源可扩展的集成式设计

这样的理念和架构,正好印证了Metacat的三个主要目标:

元数据系统的联合视图

用于数据集元数据的统一API

数据集的任意业务和用户元数据存储

在实际的场景中,公司普遍存在大量多源异构的数据,其数据源包括Hive、MySQL、Oracle、Greenplum等。

支持不同数据源,建立一个可扩展的、统一的元数据层非常重要的,否则公司的元数据是缺失的。

从上面Metacat的架构图中,可以看到:Metacat的设计非常巧妙,它并没有单独再保存一份元数据,而是采取直连数据源拉取的方式。

一方面,它不存在保存两份元数据一致性的问题;另一方面,这种架构设计很轻量化,每个数据源只要实现一个连接实现类即可,扩展成本很低。

03

Apache Atlas

Apache Atlas本质上是一个可扩展的核心基础治理服务集,使企业能够有效地和高效地满足 Hadoop中的合规性要求,并允许与整个企业数据生态系统的集成。

这里重点了解实时数据血缘采集的架构设计,血缘采集,一般可以通过三种方式:

第一,通过静态解析 SQL,获得输入表和输出表;

第二,通过实时抓取正在执行的 SQL,解析执行计划,获取输入表和输出表;

第三,通过任务日志解析的方式,获取执行后的 SQL 输入表和输出表。

第一种方式,面临准确性的问题,因为任务没有执行,这个SQL对不对都是一个问题;第三种方式,血缘虽然是执行后产生的,可以确保是准确的,但是时效性比较差,通常要分析大量的任务日志数据。

因此,第二种方式,相对是比较理想的实现方式,Atlas也正是通过这种方式实现元数据的血缘采集(如图)。

Apache Atlas产品架构

对于Hive计算引擎,Atlas通过Hook方式,实时地捕捉任务执行计划,获取输入表和输出表,推送给Kafka。

由一个Inges模块负责将血缘写入JanusGraph 图数据库中,然后通过 API 的方式,基于图查询引擎,获取血缘关系;对于Spark,Atlas提供了Listener的实现方式。

此外,Sqoop、Flink也有对应的实现方式。

篇幅有限,数据中台如何搭建元数据中心将在下一篇文章带大家了解,数据中台系列文章大家可以移步主页合集查看。

标签:方式,数据源,Metacat,选型,数据管理,必读,Atlas,血缘,数据
From: https://blog.51cto.com/u_12208051/5838748

相关文章

  • 数据中台选型必读(二):数据中台如何搭建元数据管理中心
    在数据中台选型必读(一)中,我们明确了元数据管理是数据中台实现数据共享和复用的基础;也通过Metacat和ApacheAtlas了解了现在业界主流的元数据管理产品是啥样的。元数据管理架......
  • 数据中台选型必读(四):要想中台建的好,数据模型得做好
    在数据中台构建之前,分析师经常发现自己没有可以复用的数据集,不得不使用原始数据依次进行数据的清洗、加工、计算指标。重复进行原始数据的清洗加工由于业务部门的分析师......
  • 热更新技术探讨,该如何选型
    为了照顾萌新童鞋,最开始还是对热更新的概念做一个通俗易懂的介绍。热更新用通俗的讲就是软件不通过应用商店的软件版本更新审核,直接通过应用自行下载的软件数据更新的行为。......
  • HM-RocketMQ2.1【案例介绍、技术选型】
    1案例介绍1.1业务分析模拟电商网站购物场景中的【下单】和【支付】业务1.1.1下单用户请求订单系统下单订单系统通过RPC调用订单服务下单订单服务调用优惠券服务......
  • 人工智能必读书目
    2人工智能必读书籍电子版:《深度学习花园书》《OpenCV官方中文版》李沐《动手学深度学习中文版》《1天入门深度学习》3超详细计算机视觉书籍:邱锡鹏《神经网络与深度学习》......
  • 数据中台选型前必读:到底什么企业适合上数据中台?
    数据中台虽然已经在口碑上跌下神坛,甚至一些企业开始拆中台。但是,笔者在客户咨询过程中经常遇到一种情况,企业仍然喜欢打着“数据中台”的名义沟通项目需求,但背后的需求很多时......
  • 机械视觉之硬件选型
    一,相机选型1.1.面阵相机和镜头选型已知:被检测物体大小为A×B,要求能够分辨率小于C,工作距离为D[1]相机选型步骤:(1).相机的最低分辨率=(A×B)/(C×C),(2).相机在选型时,......
  • 前端大数据可视化02-数据可视化前端技术选型
    数据可视化解决方案前端数据可视化解决方案如下:底层引擎SkiaSkia 是Chrome和Android的底层2D绘图引擎,具体可参考百度百科,Skia采用C++编程,由于它位于浏览器......
  • 推荐10本大数据领域必读的经典好书(火速收藏)
        写博客也已经快一年了,从去年的1024到现在金秋10月已纷至沓来。回顾这一年所发布的原创文章,基本都是与大数据主流或者周边的技术为主。本篇博客,就为大家介绍几篇......
  • IM消息ID技术专题(七):网易严选分布式ID的技术选型、优化、落地实践
    1、引言在《IM消息ID技术专题》系列文章的前几篇中,我们已经深切体会到消息ID在分布式IM聊天系统中的重要性以及技术实现难度,各种消息ID生成算法及实现虽然各有优势,但受制......