大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
正文共: 6623字 7图
预计阅读时间: 17分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为参考数据和主数据共分为5个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、参考数据和主数据概述
跨业务,跨流程和跨系统使用的数据。
参考数据和主数据语境关系图:
主数据管理常见业务驱动因素:1)满足组织数据需求。2)管理数据质量。3)管理数据集成的成本。4)降低风险。
参考数据管理的驱动因素:1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。2)提升参考数据的质量。
目标:1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
指导原则:
1)共享数据。为能共享必须管理起来。
2)所有权。所有权属于整个组织,需要全局的组织管理。
3)质量。需要持续的控和治理。
4)管理职责。业务数据管理专员要对质量负责。
5)控制变更。①在给定的时间点,主数据值应代表最佳理解。改变数据值的匹配规则有监督。 合并或拆分可追溯的。②对参考数据的更改应遵循明确流程:在实施变更之前应得到批准。
6) 权限。主数据值应仅从记录系统中复制。为实现跨组织的共享,需建立参考数据管理系统。
为方便理解,整理本部分思维导图如下:
二、基本概念
1、主数据和参考数据的区别
奇泽姆(Malcolm Chisholm)的六层的数据分类法:元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。他将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。
参考数据和主数据管理的重点不同:1)参考数据管理(Reference Data Management,RDM)。 需要对定义的域值及其定义进行控制。目标是确保组织能访问每个概念的一整套准确且值是最新。2)主数据管理(Master Data Management,MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。主数据管理的目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。
2、参考数据
参考数据:指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。
最基本的参考数据由代码和描述组成,还可能包含映射和层次结构。
参考数据常见的存储方式:1)关系数据库中的代码表。通过外键与保持参照完整性。2)参考数据管理系统。支持更广泛的应用和数据整合使用。3)用特定于对象属性的元数据指定允许值, 重点在于应用程序的调用接口或用户界面访问。
具体说明:
1、参考数据结构:1)列表。2)交叉参考数据列表。3)分类法。4)本体。一些组织将用于管理网站内容的本体作为参考数据的一部分,本体模型也可以理解为是元数据的一种形式。
2、专有或内部参考数据。支持内部流程和应用。
3、行业参考数据。由行业协会或政府机构的数据集标准。
4、地理或地理统计参考数据。可根据地理信息进行分类分析。
5、计算参考数据。通用的、持续计算的数据。
6、标准参考数据集的元数据。参考数据的元数据属性。
3、主数据
主数据是有关业务实体的数据。实体是客观世界的对象(人、组织、地方或事物等)。
主数据应代表与关键业务实体有关的权威的、最准确的数据。
一般组织的主数据包括:参与方、产品和服务、财务体系、位置信息。
具体说明:
1、记录系统、参考系统。
记录系统用于创建、获取并维护数据。(如ERP系统)
参考系统用来支持交易和分析。(如主数据管理应用MDM,DSH,DW)
2、可信来源、黄金记录。
可信来源是指事实的最佳版本。
黄金记录是指事实的单一版本。
3、主数据管理*
Gartner将主数据管理定义为“一个技术支持的知识领域,在这个过程中业务和技术协同工作,以确保企业官方共享主数据资产的统一性、准确性、管理性、语义一致性和问责性”。
如何评估主数据管理情况:
1)哪些角色、组织、地点和事物被反复引用。
2)哪些数据被用来描述人、组织、地点和事物。
3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问。
5)数据通过组织内的系统时是如何变化的。
6)谁使用这些数据,为了什么目的。
7)用什么标准来衡量数据及其来源的质量和可靠性。
规划主数据管理的基本步骤:
1)识别能提供主数据实体全面视图的候选数据源。
2)为精确匹配和合并实体、实例制定规则。
3)建立识别和恢复未恰当匹配或合并的数据的方法。
4)建立将可信数据分发到整个企业的系统中的方法。
主数据管理是全生命周期的管理过程,关键活动有:
1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理。
2)识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合。
3)协调和整合不同来源的数据,以提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并试图解决属性命名和数据值不一致的问题。
4)识别出那些未被正确匹配或合并的实例,确保它们得到修正, 并关联到正确的标识符。
5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。
6)在组织内强制使用主数据。 这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。
4、**主数据管理的关键处理步骤*
数据模型管理。数据采集。数据验证/标准化和丰富。实体解析。 数据共享和管理工作。
关键步骤——1 数据模型管理:对于主数据来说,在企业级使用的术语和定义应该与整个组织所进行的业务相关联,而不必依赖于源系统贡献的数据值。构成主数据的属性,定义的粒度和相关数据值的粒度在整个组织中也必须有意义。不同系统中的不同命名的多个属性,要在模型中合并为单一属性。
关键步骤——2 数据采集:从规划、评估和合并新的数据源到确定主数据管理解决方案,必须是一个可靠的、可重复的过程。数据采集活动包括:①接收并应对新的数据源采集的要求。②使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估。③评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析。④试点数据采集及其对匹配规则的影响。⑤为新数据源确定数据质量指标。⑥确定由谁负责监控和维护新数据源数据的质量。
关键步骤——3 数据验证、标准化和数据丰富:实现实体的解析,数据应尽可能保持一致。过程:①验证。识别那些被证明是错误的或可能是不正确或默认的数据。②标准化。确保数据内容符合标准参考数据值(如国家代码)、标准的格式(如电话号码)或字段(如地址)。③数据丰富。添加可以改进实体解析服务的属性。
关键步骤——4 实体解析和标识符管理:实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程,是决策过程。实体解析包括一系列活动:实例提取、实例准备、实例解析、身份管理、关系分析。
具体活动如下:
- ①匹配(Matching)。匹配或候选识别是识别不同记录如何与单个实体相关联的过程。
这个过程的风险是:a)假阳性(False Positives):不代表同一实体的两个对象被关联在一个标识符下。 假阳性导致一个标识符指向多个现实世界的实体实例。b)假阴性(False Negatives): 代表同一实体的两个对象没有关联在一个标识符下。假阴性导致多个标识符指向同一个现实世界的实体,但一个实体本应该有且只有一个标识符。
假阳性和假阴性都可以通过相似性分析或匹配的过程来处理,有 a)确定式算法;b)或然性算法。
- ②身份解析。一些匹配采用多个字段实现精确数据匹配,故可信度很高;另一些匹配则由于数值冲突而缺少可信度。
- ③匹配流程/协调类型。不同场景的匹配规则需要不同的工作流程:a)重复标识匹配规则。 b)匹配链接规则。c)匹配合并规则。 - 匹配合并规则如此复杂,目的就是希望在多个记录和数据源中提供统一的、协调的信息版本。
- ④主数据 ID 管理。管理主数据涉及管理标识符。在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息。
- ⑤从属关系管理。从属关系管理负责建立和维护具有现实世界关系的实体主数据记录之间的关系。a)隶属关系。b)父子关系。
5、参与方主数据
个人、组织以及他们在业务关系中所扮演角色的数据。
客户关系管理(CRM)系统能够管理客户的主数据。
无论什么行业,管理业务参与方主数据均面临一定的挑战:1)个人和组织扮演的角色和他们之间关系的复杂性。2)唯一标识的困难。3)数据源的数量和它们之间的差异。4)多个移动通信信道和社交渠道。5) 数据的重要性。6)客户想要怎样参与的期望。
6、财务主数据
有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。
7、法律主数据
合同、法规和其他法律事务的数据。
8、产品主数据
专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)。1)产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。2)产品数据管理(PDM)系统:设计文档(如 CAD 图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息。3)企业资源规划(ERP)系统的产品数据主要关注库存单位。4)制造执行系统(MES)中的产品数据主要关注原材料库存、半 成品和成品。5)客户关系管理(CRM)系统支持营销、销售和交互支持。
9、位置主数据
提供跟踪和共享地理信息的能力。1)位置参考数据通常包括行政区域数据。2)位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置。
10、行业主数据——参考目录
主数据实体(公司、人员、产品等)的权威清单。参考目录是由外 部组织创建的,但管理是在组织自己的系统中进行维护的。邓白氏公司(D&B)。
4、数据共享架构
主数据中心环境的三种基本方法:
1)注册表(Registry):注册表是指向多种记录系统(System of Record)中主数据记录的索引。
2)交易中心(Transaction Hub):主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。
3)混合模式 (Consolidated):是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享。
为方便理解,整理本部分思维导图如下:
三、活动
1、主数据管理活动
1.识别驱动因素和需求。每个组织都不同。
2.评估和评价数据源。理解现有数据。
3.定义架构方法。取决于业务战略、现有数据源平台、数据本身,还有数据血缘和波动性及延迟的影响。
4.建模主数据。数据整合的过程。必须在主题域内为数据建模。
5.定义管理职责和维护过程。向源系统反馈,修复和改进数据遗失的流程。
6.建立治理制度,推动主数据使用。要有路线图。
2、参考数据管理活动
1.定义驱动因素和需求。主要是运行效率和更高的数据质量,减少系统不一致的风险。
2.评估数据源。行业标准,组织内,中间商。
3.定义架构方法。关键是考虑管理参考数据的要求和带来的挑战。
4.建模参考数据。不只是简单的代码和描述。
5.定义管理职责和维护流程。参考数据需要确定管理职责,以确保数据值的完整性和时效性。
6.建立参考数据治理制度。要有适当的政策来管理质量。
为方便理解,整理本部分思维导图如下:
四、工具、方法、实施指南
1、工具方法
主数据管理需要一些专门被设计用于实现标识管理的工具。
主数据管理可以通过数据整合工具、数据修复工具、操作型数据存储、数据共享中心或专门的主数据管理应用来实现。
2、实施指南
主数据和参考数据管理是数据整合的一种方式。
主数据和参考数据管理的能力不可能在一夜之间实现。
如果缺乏适当的治理,将会导致主数据管理项目失败。
有以下措施:
1、遵循主数据架构
建立和遵循适当的参考体系架构,对于管理和共享跨组织的主数据至关重要。
2、监测数据流动
监控相关数据流,以便实现以下目的:1)数据如何共享和使用。2)识别数据的血缘关系。3) 辅助问题追因分析。4)展示数据整合和技术的有效性。5)展示源系统数据值延迟。6)确定在集成组件中执行的业务规则和转换的有效性。
3、管理参考数据变更
由于参考数据是共享资源,所以不应任意更改。
数据修改的类型包括:
1、对外部参考数据集的行级变更。
2、外部参考数据集的结构变化。
3、对内部参考数据集的行级变更。
4、内部参考数据集的结构变化。
5、创建新的参考数据集。
参考数据变更请求应该遵循既定流程。
参考数据变更请求流程:接受变更请求。确定利益相关方。确认影响。决策和沟通。更新并通知(如果可行)。
4、数据共享协议
为了确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在何种条件下可以共享。
应当建立服务水平协议(SLA)和指标,以衡量共享数据的可用性和分享数据的质量。
5、组织和文化变革
放弃:参考数据和主数据要求人们放弃对某些数据和进程的控制。
改变:提供参考数据和主数据的可用性和质量无疑需求对传统做法做出修改。
责任:确定那些决定由哪个人负责。
为方便理解,整理本部分思维导图如下:
五、参考数据和主数据治理
1、治理过程决定事项
治理过程应决定如下事项:1)要整合的数据源。2)要落实的数据质量规则。3)遵守使用规则的条件。4)要监控的行动和监控频率。5)优先级和数据工作响应等级。6)如何展示信息以满足利益相关方的需求。7)参考数据管理和主数据管理部署的标准授权扎口和预期。
2、度量指标
1)数据质量和遵从性。数据质量仪表板可以描述参考数据和主数据的质量。
2)数据变更活动。审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的。
3)数据获取和消费。
4)服务水平协议(SLA)。
5)数据管理专员覆盖率。可以用来识别支持方面的差距。
6) 拥有总成本。可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等。
7)数据共享量和使用情况。
为方便理解,整理本部分思维导图如下:
未完待续~
我这边也组织了一个CDMP自学交流群,仅限想学习数据治理的同学和有意参加CDMP认证考试的同学加入。
大数据流动:大数据、实时计算、数据治理,数据可视化实践类自媒体。定期发布数据治理,元数据管理落地技术实践文章,分享数据治理实践落地相关技术与资料。
提供大数据入门,数据治理,Superset,Atlas,Datahub等学习交流群。
大数据流动,对大数据技术学习永不止步。
长按,识别二维码,关注我吧!