首页 > 其他分享 >大数据之元数据

大数据之元数据

时间:2023-05-23 16:23:33浏览次数:37  
标签:之元 存储 管理 平台 数据管理 atlas 数据

在成体系的大数据开发的工作中,离不开元数据管理、数据整合、数据治理、数据质量管控等等。本篇文章从元数据是什么,为什么要有元数据,元数据分类,元数据管理等方面谈谈元数据。

目录

元数据是什么

要理解这个问题,首先要知道“元”是什么。

元数据意味着“有关数据的数据”。虽然“meta”前缀(来自希腊语介词和前缀 μετά-)意味着“之后”或“超越”,但它用于在认识论中表示“约”。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

先让我们看一些真实的元数据示例:
image

每次用今天的相机拍照时,都会收集并保存一堆元数据:

l 日期和时间,

l 文件名,

l 相机设置,

l 地理位置。

一本书
image

每本书都有封面和内部的许多标准元数据。这包括:

l 一个标题,

l 作者姓名,

l 出版商和版权细节,

l 背面的描述,

l 目录,

l 指数,

l 页码。

从这些真实的元数据可以看出,元数据是关于数据的描述,存储着关于数据的信息。

为什么要有元数据以及元数据管理

元数据管理很多年前就有了,比如很多公司会拿Excel或者是文本存储数据仓库里所有的表结构,以方便大家查询。但是现代元数据平台与传统的元数据管理有什么区别呢?现代元数据平台在于自从拥有了大数据以后,一个公司已经不仅仅只需要一个数据库就可以支撑数据分析等工作,而是需要分布式数据存储、计算、可视化、调度等等复杂的工具组成的现代数据技术栈)(Modern Data Stack)。此时就需要一个现代元数据平台去管理现代数据技术栈,以防止公司的数据生态系统由于分散和增长而变成笨重的野兽。

公司的持续发展导致公司内部的系统中有数百万个数据集,没有人知道它们是什么,它们是如何计算的,在哪里可以找到正确的数据,甚至如果有问题该问谁。

元数据贯穿大数据平台数据流动的全过程,主要包括数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据。

元数据分类

将元数据按用途可分为三类:技术元数据、业务元数据、管理元数据

  • 技术元数据

技术元数据包括:库表结构、字段约束、数据模型、ETL程序、sql程序、数据质量监控等。

存储元数据:表、字段、分区等信息
运行元数据:大数据平台上所有运行等信息:类似于Hive Job 日志,包括作业类型、实例名称、输入输出、SQL、运行参数、执行时间、执行引擎、占用资源等
数据同步、计算任务、任务调度等信息:数据同步的输入输出表和字段,以及同步任务本身的节点信息;任务调度主要有任务的依赖类型、依赖关系、调度周期。

  • 业务元数据

业务指标、业务代码、业务术语等。

包含:指标名称、指标编码、统计口径、指标类型、责任人、创建时间、状态、SQL等

  • 管理元数据

数据所有者、数据治理定责、数据安全等级等

描述了数据的管理属性,包括管理部门、管理责任人,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。

元数据的应用

  • 应用一:数据血缘
    主要解决“数据之间的关系”,数据血缘分析是获取数据的血缘关系,它有任务级别关系、表级别的关系、字段级别关系。以历史事实的方式记录数据的来源,处理过程等。
  • 应用二:数据影响分析
    它是分析数据的下游流向。比如当系统表结构进行升级改造的时候,如果修改了数据表结构或者ETL的程序。可以快速定位元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。
    比如说改表结构后发现对下游ADS相关3个指标都有影响,定位影响之后,数据部门及时通知下游相关系统的管理人员,修改了下游的相应程序和表结构,就避免问题的发生。
    所以影响性分析快速定位元数据变更可能带来的影响,提前干预。
  • 应用三:数据冷热度分析
    冷热度分析主要是对数据表的被使用情况进行统计,告诉你哪些数据是常用数据,哪些数据任务是僵尸数据。
  • 应用四:数据地图
    1.根据关键词查表的问题
    2.根据表名查字段,查表介绍的问题
    3.查看表的大小,存储方式,存储周期
    4.如果涉及到字段添加,字段修改找谁的问题

元数据管理

对于元数据管理,目前有三种方式可供选择

  • 手工维护
    对于规模比较小,并且业务不大的公司,可能会使用这种方式,但是这种方式太古老,且容易出错,如wiki,excel,svn之类的协作工具。
  • 开源组件Atlas
    Apache Atlas 是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、数据血缘、安全和生命周期管理在内的元数据治理核心功能。
    Atlas的特性
    1. 通过atlas为数据系统开发好的hook来注入元数据
    2. 通过atlas自带的web-ui前端系统来注入、查看、修改元数据
    3. 通过调用atlas对外暴露的api,来开发自己的管理系统
  • 自研系统
    自研元数据管理系统或者在数据平台开发元数据管理模块,很多大公司会基于hive hook,spark listerner,Flink Hook。

标签:之元,存储,管理,平台,数据管理,atlas,数据
From: https://www.cnblogs.com/fanfana/p/17425565.html

相关文章

  • 接口加密了该怎么测?接口中有数据要进行加密怎么做??
    对明文编码生成信息摘要,以防止被篡改。比如MD5使用的是Hash算法,无论多长的输入,MD5都会输出长度为128bits的一个串。摘要算法不要秘钥,客户端和服务端采用相同的摘要算法即可针对同一段明文获取一致的密文。对称加密对称加密算法是共享密钥加密算法,在加密解密过程中,使用的密钥只......
  • sqlserver 创建表时,为何会出现不支持该后端版本设计数据库关系图或表的提示?
    https://www.null123.com/question/detail-2236078.html同事遇到的问题,查了下记录下:由于使用了错误的SSMS版本(SqlServerManagementStudio),这通常被报告为错误。使用为您的数据库版本设计的版本。您可以使用命令select@@version检查您实际使用的sqlserver版本。此版本的报......
  • 1万多贺卡祝福节日祝福ACCESS\EXCEL数据库
    你是否在春节只能复制别人的祝福短信来发送?你是否在节日期间为给朋友送祝福无从下手?你是否在特殊日子和朋友打不开对话的开头?其实,很多情况下我们都需要一堆不同与别的人祝福语,用在节日上、用在交际上等日常备用。今天这一份数据就是祝福语大全,有节日、祝福两大类,子分类有50多个。......
  • 8百多经典古诗学习鉴赏ACCESS\EXCEL数据库
    虽然古诗类的数据搞到过很多,但是有鉴赏、译文等鉴赏类字段的还是很少,而今天搞到一个古诗学习类数据库,虽然记录数不多,但大都有翻译、鉴赏、译文等字段内容,是小学生、中学生、高中生学习的好东西。朝代统计:金朝(2)、两汉(22)、明代(25)、南北朝(24)、清代(27)、宋代(348)、唐代(373)、魏晋(19)、五......
  • rails 前后端数据传递hash to json
    controller.rb@data={a:1,b:2}@data_new={"a":1,"b":2}index.htmlvararr=<%=@data%>#=>{:a=>1,:b=>2}vararr=<%=raw@data%>#=>arr={:a=>1,:b=>2}vararr=<%=raw@data_......
  • 瀚高数据库按时间年份分组
    今天写业务的时候遇到一个需求:根据年份分组统计数量。使用的是瀚高数据库。听上去好像是小问题,但实际上却是有点困难的。因为数据库中存储的时间是默认到秒的,例如:2023-04-1100:00:00,如果我们直接使用groupbytime的话,就会以秒为基本单位进行分组,这显然不是我们想要的,所以我们要......
  • 基于PSO优化的SVM数据预测算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要         支持向量机(supportvectormachines,SVM)是二分类算法,所谓二分类即把具有多个特性(属性)的数据分为两类,目前主流机器学习算法中,神经网络等其他机器学习模型已经能很好完成二分......
  • 7千多最好的古诗欣赏词库ACCESS数据库
    古诗词类的数据虽然已经搞了很多,但是各有各的特点,今天再发一款适合于开发人员开发产品的古诗词库,如果有技术,那么这个诗词类的数据库就是诗词类里最好的数据库。需要说明的是,该数据库需要技术人员或开发人员使用,因为里面有格式针对每一句的翻译或解决,具体可以从文后的样本链接下载......
  • 科技云报道:垂直大模型竞争,能突破数据“卡点”吗?
    科技云报道原创。AI大模型火遍全球,中国产业也激发了对人工智能应用的新热情。随着各大厂商参与竞逐,市场正在分化为通用与垂直两大路径,两者在参数级别、应用场景、商业模式等方面差异已逐步显现。企业涌入垂直大模型赛道通用AI大模型像ChatGPT,能够处理各种领域和场景的自然语言,但由......
  • .NET中SQL Server数据库连接方法
    1. 使用本机上的SQLServerExpress实例上的用户实例。     用户实例的连接创建了一个新的SQLServer实例。此连接只能是在本地SQLServer2005实例上并且是通过命名管的windows验证连接才有效。目的就是为了给用户创建一个完全权限的SqlServer实例和有限的计算机管理员......