一、元数据管理概述
什么是元数据
元数据的3种类型
业务元数据
技术元数据
操作元数据
元数据的作用
什么是元数据管理
元数据管理的目标
建立指标解释体系
提高数据溯源能力
数据质量稽核体系
元数据管理的阶段
二、元数据管理方法
业务目标理解
建立企业数据资产目录
消除冗余加强数据复用
降低因人员流动而导致知识流失的风险
提供数据血缘探查能力, 提高数据分析的质量
三、元数据管理技术
元数据采集
元数据管理
元数据应用
数据资产地图
元数据血缘分析
元数据接口
一、元数据管理概述
什么是元数据
元数据是关于数据的组织、 数据域及其关系的信息, 简言之, 元数据就是描述数据的数据。
举例:图书馆中的图书目录,或者一本书的目录。
元数据的3种类型
业务元数据
业务元数据描述数据的业务含义、 业务规则等。 明确业务元数据可以让人们更容易理解和使用业务元数据。 元数据消除了数据二义性, 让人们对数据有一致的认知, 避免“自说自话”, 进而为数据分析和应用提供支撑。
常见的业务元数据有:
业务定义、 业务术语解释等;业务指标名称、 计算口径、 衍生指标等;
业务引擎的规则、 数据质量检测规则、 数据挖掘算法等;
**数据的安全或敏感级别等 **
技术元数据
技术元数据是结构化处理后的数据, 方便计算机或数据库对数据进行识别、 存储、 传输和交换。 技术元数据可以服务于开发人员, 让开发人员更加明确数据的存储、 结构, 从而为应用开发和系统集成奠定基础。 技术元数据也可服务于业务人员, 通过元数据厘清数据关系, 让业务人员更快速地找到想要的数据, 进而对数据的来源和去向进行分析, 支持数据血缘追溯和影响分析。
常见的技术元数据有:
物理数据库表名称、 列名称、 字段长度、 字段类型、 约束信息、 数据依赖关系等;
数据存储类型、 位置、 数据存储文件格式或数据压缩类型等;
**字段级血缘关系、 SQL脚本信息、 ETL信息、 接口程序等;调度依赖关系、 进度和数据更新频率等。 **
操作元数据
操作元数据描述数据的操作属性, 包括管理部门、 管理责任人等。 明确管理属性有利于将数据管理责任落实到部门和个人, 是数据安全管理的基础。
常见的操作元数据有:
数据所有者、 使用者等;
数据的访问方式、 访问时间、 访问限制等;数据访问权限、 组和角色等;
**数据处理作业的结果、 系统执行日志等; **
**数据备份、 归档人、 归档时间等。 **
元数据的作用
描述: 对数据对象的内容、 属性的描述, 这是元数据的基本功能, 是各组织、 各部门之间达成共识的基础。
定位: 有关数据资源位置方面的信息描述, 如数据存储位置、 URL等记录, 可以帮助用户快速找到数据资源, 有利于信息的发现和检索。
检索: 在描述数据的过程中, 将信息对象中的重要信息抽出标引并加以组织, 建立它们之间的关系, 为用户提供多层次、 多途径的检索体系, 帮助用户找到想要的信息。
管理: 对数据对象的版本、 管理和使用权限的描述, 方面信息对象管理和使用。
评估: 由于有元数据描述, 用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识, 方便用户的使用。
交互: 元数据对数据结构、 数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转, 并确保流转过程中数据标准的一致性。
什么是元数据管理
元数据管理是对涉及的业务元数据、 技术元数据、 操作元数据进行盘点、集成和管理。 采用科学有效的机制对元数据进行管理, 并面向开发人员、 业务用户提供元数据服务, 可以满足用户的业务需求, 为企业业务系统和数据分析的开发、 维护等过程提供支持。
可以从技术、 业务和应用三个角度理解元数据管理。
技术角度: 元数据管理着企业的数据源系统、 数据平台、 数据仓库、 数据模型、 数据库、 表、 字段以及字段间的数据关系等技术元数据。
业务角度: 元数据管理着企业的业务术语表、 业务规则、 质量规则、 安全策略以及表的加工策略、 表的生命周期信息等业务元数据。
**应用角度: 元数据管理为数据提供了完整的加工处理全链路跟踪, 方便数据的溯源和审计, 这对于数据的合规使用越来越重要。 通过数据血缘分析, 追溯发生数据质量问题和其他错误的根本原因, 并对更改后的元数据进行影响分析。 **
元数据管理的目标
建立指标解释体系
满足用户对业务和数据理解的需求, 建立标准的企业内部知识传承的信息承载平台, 建立业务分析知识库, 实现知识共享。
** 能够回答以下问题:企业有哪些数据?什么是企业有效客户? 有效客户和客户有何区别?什么是产品的生命周期?这个数据还叫什么名字?数据仓库中的存储过程是谁写的? 它用来干什么? 现在还在用吗?**
**典型应用有数据资源目录和业务术语表。 **
提高数据溯源能力
让用户能够清晰地了解数据仓库中数据流的来龙去脉、 业务处理规则、 转换情况等, 提高数据的溯源能力, 支持数据仓库的成长需求, 降低因员工换岗造成的影响。 元数据有助于回答以下问题:这张表是从哪个业务系统中抽取过来的?ETL过程是否对数据进行过加工处理? 进行了哪些处理?指标数据是从哪些表汇总计算出来的?
**典型应用有血缘分析、 影响分析、 全链路分析。 **
数据质量稽核体系
通过非冗余、 非重复的元数据信息提高数据完整性、 准确性。 元数据管理解决的问题是如何将业务系统中的数据分门别类地进行管理, 建立报警、 监控机制, 出现故障时能及时发现问题, 为数据仓库的数据质量监控提供基础素材。
能够回答以下问题:今天的在线用户数为什么是0?为什么A报表中的本月收入值与B报表中的不同?
**典型应用有指标标准和数据质量规则。 **
元数据管理的阶段
二、元数据管理方法
业务目标理解
建立企业数据资产目录
数据即资产的理念已经得到企业的广泛认可。 面对不断增长、 不断变化、日益复杂的数据环境, 企业需要数据资产的简单发现和跟踪能力。 通过管理元数据, 企业能够快速发现数据资产的分布和关系, 形成企业数据资产目录。
消除冗余加强数据复用
通过元数据管理, 建立基于CWM的元数据仓库, 实现企业元数据的统一管理, 并将元数据仓库作为“单一数据源”, 为企业的应用开发提供可复用的数据模型和元数据标准, 以实现元数据的重复利用, 减少冗余或未使用数据, 从而提高工作效率, 降低软件开发成本, 缩短项目交付时间。
降低因人员流动而导致知识流失的风险
企业重要的数据资产常常因关键员工的调离或离职而“消失”, 这里所谓的“消失”通常并不是因为员工将数据恶意删除或拿走, 而是企业数据资产的存放方式、 存储位置等关键数据都只留在关键员工的大脑中, 一旦该员工离开公司, 数据资产也就隐没在“茫茫数海”中了! 而统一的元数据管理能够降低企业这种数据“消失”的风险。
提供数据血缘探查能力, 提高数据分析的质量
数据来自什么地方以及如何产生、 处理和交付数据, 这为用户提供了重要的背景知识。 探查源系统中的数据可以暴露和解决数据的不准确、 不一致问题, 从而提升数据的质量。此外, 元数据的统一管理, 提供变更管理、 版本控制等能力为不断变更的业务需求所带来的影响提供了支撑, 并加快了新应用开发项目和数据集成项目的开发速度。 开发人员可以依赖统一、 标准的元数据来轻松、 准确地确定他们的项目所需的数据, 从而节约项目开发成本, 提升项目交付效率。
三、元数据管理技术
元数据采集
在数据治理项目中, 常见的元数据有数据源的元数据、 数据加工处理过程的元数据、 数据仓库或数据主题库的元数据、 数据应用层的元数据、 数据接口服务的元数据等。
元数据采集内容:
元数据管理
从技术的角度看, 元数据管理一般包括元模型管理、 元数据审核、 元数据维护、 元数据版本管理、 元数据变更管理等功能。
元数据应用
数据资产地图
按数据域对企业数据资源进行全面盘点和分类, 并根据元数据字典自动生成企业数据资产的全景地图。 该地图可以告诉你有哪些数据, 在哪里可以找到这些数据, 能用这些数据干什么。 数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程, 通过不同层次的图形展现粒度控制, 满足业务上不同应用场景的图形查询和辅助分析需要。
元数据血缘分析
元数据血缘分析会告诉你数据来自哪里, 经过了哪些加工。 其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源, 快速定位到问题数据的来源和加工过程, 减少数据问题排查分析的时间和难度。
元数据接口
建立元数据查询、 访问的统一接口规范, 以将企业核心元数据完整、 准确地提取到元数据仓库中进行集中管理和统一共享。元数据接口规范主要包括接口编码方式、 接口响应格式、 接口协议、 接口安全、 连接方式、 接口地址等方面的内容。