大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
到底什么是CDMP——数据治理国际认证超全面介绍
正文共: 5935字 12图
预计阅读时间: 15分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为数据仓库与商务智能部分,共分为5个部分。
由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、数据仓库和商务智能概述
数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代,后与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。
数据仓库提供了一种减少数据冗余、提高信息一致性、让企业能够利用数据做出更优决策的方法。
数据仓库被公认为企业数据管理的核心。
业务驱动因素:运营支持职能、合规需求和商务智能活动。
数据仓库的建设目标:1)支持商务智能活动。2)赋能商业分析和高效决策。3)基于数据洞察寻找创新方法。
数据仓库建设应遵循原则:1)聚焦业务目标。2)以终为始。3)全局性的思考和设计,局部性的行动和建设。4)总结并持续优化,而不是一开始就这样做。5)提升透明度和自助服务。6) 与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。7)协同。与其他数据活动协 作,尤其是数据治理、数据质量和元数据管理活动。8)不要千篇一律。为每种数据消费者提供正确的工具和产品。
为方便理解,整理本部分思维导图如下:
二、基本概念
1、商务智能
商务智能:第一层含义,商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。第二层含义,商务智能指的是支持这类数据分析活动的技术集合。
业务+技术。
2、数据仓库
数据仓库:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。
广义上数据仓库包括任何支持商务智能目标的实现提供数据的数据存储或提取操作。
企业级数据仓库(EDW)是集中化的数据仓库。
数据集市是数据仓库中数据子集的副本。
3、数据仓库建设
数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。还包括与元数据资料库交互的流程。传统意义上建设主要关注结构化数据。
4、数据仓库建设方法
数据仓库建设的方法。两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball) 分别使用范式建模和多维建模来完成数据仓库建模。
比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit) 中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本。
他们遵循的核心理念相似:1)数据仓库存储的数据来源于其他系统。2)以提升数据价值的方式整合数据。3)便于数据被访问和分析。4)都为了让授权的利益相关方访问到可靠的、集成的数据。5)建设目的涵盖工作流支持、运营管理和预测分析。
5、企业信息工厂(Inmon)
企业信息工厂CIF是数据仓库建设模式之一,数据仓库和业务系统的区别。
1、面向主题的。2、整合的。3、随时间变化的。4、稳定的。
5、聚合数据和明细数据。 6、历史的。
企业信息工厂(Corporate Information Factory,CIF)组成:1)应用程序。2)数据暂存区 3) 集成和转换。4)操作型数据存储(ODS)。5)数据集市。6)操作型数据集市(OpDM)。操 作型数据集市是专注于运营决策支持的数据集市。直接从操作型数据存储而不是从数据仓库获取数据,具有与操作型数据存储相同的特性:包含当前或近期的数据,这些数据是经常变化的。 7)数据仓库。单向流向数据集市。8)运营报告。运营报告从数据存储中输出。9)参考数据、 主数据和外部数据。
6、多维数据仓库(Kimball)
多维数据仓库(Kimball):星型模型,由事实表(包含有关业务流程的定量数据,如销售数据) 和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个 季度产品 X 卖了多少)组成。事实表与许多维表关联,整个图看上去像星星一样。
数据仓库的总线矩阵展示的是生成事实数据的业务流程和表示维度的数据主题域的交汇。独立于技术,用于表示数据仓库/BI 系统长期数据的内容需求,帮助组织确定可管理的开发工作范围。
多维数据仓库比Inmon的数据仓库可扩展性更强,数据仓库包含数据暂存和数据展示区域的所有组件。
Kimball 的数据仓库分为业务源系统、数据暂存区域、数据展示区域、数据访问工具四个部分。
1、业务源系统。企业中的操作型,交易型应用程序。
2、数据暂存区域。包括需要集成的流程和用于展示的转换数据。
3、数据展示区域。与企业信息工厂中的数据集市类似。
4、数据访问工具。侧重于最终用户的数据需求。
7、数据仓库架构组件
数据仓库环境包括一系列组织起来以满足企业需求的架构组件。
1、源系统
包括要流入数据仓库,商务智能的业务系统和外部数据。
2、数据集成
数据集成包括抽取、转换和加载。
3、数据存储区域
数据存储区域包含:1)暂存区。介于原始数据源和集中式数据存储库之间的中间数据存储区域。 2)参考数据和主数据一致性维度。3)中央数据仓库。数据结构的设计元素包括:①基于性能考 虑而设计的业务主键和代理主键之间的关系。②创建索引和外键以支持维度表。③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。4)操作型数据存储 ODS。 操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快地 刷新频率。5)数据集市。面向特定主题域、单个部门或单个业务流程。6)数据立方体 Cubes。
8、加载数据的方式
1、历史数据
历史数据处理:1.Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。2.Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。3.Data Vault,作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代 理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)。
2、批量变更数据捕获
批量变更数据捕获。数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源 系统可能需要不同的变更捕获技术,所以加载过程可以包含各种变更检测。
各种变更数据捕获技术之间的差异。
准实时和实时数据加载:1)涓流式加载(源端累积)。不同于夜间窗口批量加载,它会以更频 繁的节奏或阈值进行批量加载。2)消息传送(总线累积)。小数据报发到消息总线,目标系统 订阅总线。3)流式传送(目标端累积)。目标系统使用缓冲区或队列方式收集数据,并按顺序处理。
为方便理解,整理本部分思维导图如下:
三、活动
【活动 1】理解需求。
先要考虑业务目标和业务战略,确定业务领域并框定范围。再确定并对相 关的业务人员进行访谈,了解他们想做什么和这么做的原因,记录他们关心的问题及如何分类信息。
发展眼光+对齐业务战略+有价值的需求
【活动 2】定义和维护数据仓库/商务智能架构。
1.确定数据仓库/商务智能技术架构。应能以原子化的数据处理方式支撑交易级和运营级的报表需求。做好原型设计可以快速证明或驳斥关键 需求的实现,避免对某些技术或架构进行过大的投入。
2.确定数据仓库/商务智能管理流程。通过协调和集成维护流程进行生产管理,定期向业务团队发布。建立一个有效的发布流程,确保管 理层理解这是一个以数据产品为中心的主动流程,而不是已安装产品的被动式问题解决方式。
【活动 3】开发数据仓库和数据集市。
数据仓库/商务智能建设项目有三条并存的构建轨迹:
1) 数据。支持业务分析所必需的数据。识别最佳来源、设计规则、处理不合预期数据。
2)技术。 支持数据存储和迁移的后端系统及流程。
3)商务智能工具。
内容:1.将源映射到目标。各自来源系统的血缘关系。所有的映射工作最困难的部分都是确定多个系统中数据元素之间的链接有效性或等效性。2.修正和转换数据。为了降低目标系统的复杂性,源端系统应负责数据的修复工作并确保数据正确。
【活动 4】加载数据仓库。
工作量最大的部分是数据准备和预处理。
确定数据加载方法时,要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性,还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。另一个因素是围绕变更数据捕获过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。
【活动 5】实施商务智能产品组合。
1.根据需要给用户分组。2.将工具与用户要求相匹配。
【活动 6】维护数据产品。
1.发布管理。发布管理对增量的开发过程至关重要。
2.管理数据产品开发生命周期。
3.监控和调优加载过程。数据仓库也需要进行归档。
为方便理解,整理本部分思维导图如下:
四、工具、方法、实施指南
工具
1.元数据存储库。
A.数据字典和术语。数据字典是支撑数据仓库使用的必需组件。字典用业务术语来描述数据,数据字典内容来自逻辑数据模型。
B.数据和数据模型的血缘关系。
记录数据血缘关系的用途:
1)调查数据问题的根本原因。
2)对系统变更或数据问题进行影响分析。
3)根据数据来源确定数据的可靠性。
2.数据集成工具。
用于加载数据仓库。
选择工具时还要考虑:
1、过程审计、控制、重启和调度。
2、在执行时有选择地提取数据元素并将其传递给下游系统进行审计的能力。
3、控制那些操作可以执行或不能执行,并重新启动哪些失败或中止的进程。
3.商务智能工具的类型。
1)运营报表。
运营报表:业务用户直接从交易系统、应用程序或数据仓库生成报表。数据检索和报表工具,有时称为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。业务运营报表中的需求通常与业务查询报告的需求不同。生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。传统的商务智能工具可以很好地展现表格、饼图、折线图、面积图、条形图、直方图、K 线图等一些数据可视化方法。
2)业务绩效管理 BPM。旨在优化业务战略的执行。绩效度量和带正反馈回路是关键的要素。绩效度量和带正反馈回路是关键的要素。
3)描述性自助分析。为前台提供,指导运营决策。
在线分析处理 OLAP:多维分析查询提供快速性能的方法。
常见操作有切片。切块。向下/向上钻取。向上卷积。透视。
三种经典 OLAP 实现方法如下:关系型联机分析处理 ROLAP。多维矩阵型联机分析处理 MOLAP。混合型联机分析处理 HOLAP。
方法
方法:
1、驱动需求的原型。采用需求挖掘的方法,快速确定需求优先级。
2、自助式商务智能。自助服务是商务智能的基本交付方式。
3、可查询的审计数据。所有流程都应该存储审计信息,并能够进行细粒度的跟踪和报告。
实施指南
1、就绪评估,风险评估
数据仓库需要实现下面几点:
(1)明确数据敏感性和安全性约束。
(2)选择工具
(3)保障资源安全
(4)创建抽取过程以评估和接收源数据。
2、版本路线图
数据仓库是逐步构建的。
无论选择何种实现方法,不管是瀑布式、迭代式还是敏捷开发,都应该考虑到想要实现的最终状态。
路线图是一种有价值的规划工具。
3、配置管理
配置管理和路线图保持一致,并提供必要的后台调整和脚本。
4、组织和文化变革
始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法。
将项目与实际业务需求保持一致并评估必要的业务支持,成功的关键有:
1)业务倡议。是否有合适的管理层支持?
2)业务目标和范围。是否有确切的业务需要、业务目标和工作范围?
3)业务资源。是否有专家?参与度如何?
4)业务准备情况。业务合作是否准备好这是长期的增量交付项目?目标组织内的平均知识水平或技能差距有多大?
5)愿景一致。IT 战略对业务愿景的支持程度如何?
为方便理解,整理本部分思维导图如下:
五、数仓和商务智能治理
1、业务接受度
1)概念数据模型。组核心信息?关键的业务概念?如何相互关联?
2)数据质量反馈循环。如何识别和修正问题数据?如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
3)端到端元数据。架构如何支持集成的端到端元数据流?是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含 义是什么”或“这个指标是什么意思”等基本的问题?
4)端到端可验证数据血缘。业务用户公开访 问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?
2、客户,用户满意度
3、服务水平协议
4、报表策略
报表策略要解决:1)安全访问。确保只有获得授权的用户才能访问敏感数据。2)描述用户交互、 报告、检查或查看其数据的访问机制。3)用户社区类型和使用它的适当工具。4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质。5)通过图形化输出发挥可视化功能的潜力。6)及时性和性能之间的权衡。
5、度量指标
1.使用指标。包括注册用户数、连接用户数或并发用户数。2.主题域覆盖率。衡量每个部门访问仓库的程度 3.响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。
为方便理解,整理本部分思维导图如下: