首页 > 其他分享 >数据血缘系列(2)——什么是数据血缘?

数据血缘系列(2)——什么是数据血缘?

时间:2024-07-09 09:51:56浏览次数:11  
标签:分析 系列 确保 链条 血缘 企业 数据

大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。对于数据血缘的定义,一直都有争论,本文我们详细探讨下什么是数据血缘,并说明数据血缘能分析什么。
本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出。
思维导图如下所示:
file
数据血缘,顾名思义,是描述数据从源头到目的地的路径及其变化的过程。通俗地说,数据血缘就像是数据的“家谱”,追踪并记录数据从原始采集、经过加工处理、直到最终使用的整个生命周期。这一过程包括数据的产生、存储、转换、传输和使用等各个环节。在复杂的企业环境中,数据通常会经过多个系统和处理步骤,数据血缘帮助我们了解数据的流动路径及其变化,以确保数据的准确性、一致性和可追溯性。
根据维基百科的定义,数据血缘(Data Lineage)是指数据元素在整个生命周期中流动和变化的详细记录。它追踪数据从初始创建到最终存储位置的路径,包括所有中间步骤。维基百科强调数据血缘在数据治理和数据管理中的重要性,尤其是在数据合规和审计方面,确保数据的完整性和可靠性。
IBM 将数据血缘描述为理解和记录数据流的能力,涵盖数据从源头到报告、分析或应用程序的所有步骤。IBM 强调数据血缘在数据治理、数据质量管理和合规性方面的关键作用,帮助企业确保数据的一致性、准确性和可追溯性。
Informatica 则将数据血缘定义为在企业数据治理框架中识别、追踪和记录数据流动路径的过程。Informatica 认为,数据血缘不仅仅是技术上的需求,更是业务和合规的必需品。通过详细的血缘追踪,企业可以快速识别数据问题、进行影响分析并满足监管要求。
在《数据血缘分析原理与实践 》一书中,笔者给出一个更详细的定义:数据血缘是指数据全生命周期过程中,一个数据到另外一个数据的继承传递,不同阶段,时点,节点,的数据关系的传递,包含数据的来源、数据的加工转换、数据的传递、数据的映射关系等。

数据血缘分析是数据血缘里非常重要的一个概念。
数据血缘分析的类型
数据血缘分析帮助企业全面了解数据的流动情况,并采取有效的治理措施。主要包括三种类型:来源分析、影响分析和全链条分析。
来源分析
来源分析(Source Analysis)主要关注数据的起源,即数据从哪里来。通过来源分析,企业可以追踪数据的初始来源,了解数据最初是如何产生的。这种分析能够识别数据的源头,包括原始数据的采集系统或数据库,并详细了解数据从源头被采集到企业系统中的过程,包括采集工具、方法和频率等。此外,来源分析还能识别数据在进入企业系统后的初始处理步骤,如清洗、转换和初步存储等。通过来源分析,企业可以确保数据采集的准确性和一致性,及时发现并纠正数据源头的错误。同时,在数据隐私和安全法规(如GDPR、CCPA)的要求下,企业需要清楚了解数据来源,确保数据采集的合法性和合规性。在数据整合过程中,通过来源分析可以识别不同数据源,确保数据整合的准确性和完整性。
file
影响分析
影响分析(Impact Analysis)主要关注数据的影响范围,即数据在流通过程中如何影响其他数据或系统。通过影响分析,企业可以了解数据变更对下游系统和流程的影响。影响分析通常包括对数据的依赖关系、数据传递路径以及数据变更后的影响范围的详细研究。例如,当某个数据源发生变化时,影响分析能够帮助识别哪些下游系统或报表会受到影响,从而采取相应的调整措施。这样,企业可以提前预判数据变更带来的风险,确保数据流动的稳定性和一致性。此外,影响分析还能帮助企业优化数据流程,通过识别和消除冗余数据流,提升数据处理效率。对于企业的决策过程,影响分析提供了一个透明的视角,使得企业能够基于全面和准确的数据做出更明智的决策。
全链条分析
全链条分析(End-to-End Analysis)则是对数据从源头到目的地的整个生命周期进行全面追踪和分析。全链条分析不仅包括数据的初始采集和最终使用,还涵盖了数据在各个环节中的所有处理步骤。这种分析方式可以提供一个全面的视图,使企业能够了解数据在整个生命周期中的所有变动和处理过程。通过全链条分析,企业可以识别数据在流通过程中的关键节点和薄弱环节,确保数据的质量和一致性。此外,全链条分析还能帮助企业进行数据合规性检查,确保每个环节都符合相关法规和政策的要求。在数据问题排查时,全链条分析能够快速定位问题的根源,提供详细的数据流动记录,帮助企业迅速解决数据质量问题。总之,全链条分析提供了一个全面而深入的视角,使企业能够更好地管理和治理数据,提升数据的可信度和可靠性。
通过对来源分析、影响分析和全链条分析的综合应用,企业可以全面掌握数据的流动情况,确保数据治理的有效性和数据管理的高效性。这些数据血缘分析方法为企业提供了透明、可追溯的数据流动图景,有助于企业在复杂的数据环境中保持数据的准确性、一致性和合规性。
数据血缘的概念除了数据血缘分析,还有数据血缘可视化,数据血缘特征等内容,我们下一篇再见~

标签:分析,系列,确保,链条,血缘,企业,数据
From: https://www.cnblogs.com/tree1123/p/18291157

相关文章

  • JavaScript介绍、初识(注释语法、书写位置、书写规范)、常量和变量、数据类型Number、
    【一】JavaScript介绍【1】什么是jsjs也是一门编程语言,他可以写后端代码【2】什么是node.js前端由于非常受制于后端,所以有一些人异想天开想要通过js来编写后端代码一统江湖由此开发了一个叫nodejs的工具(支持js跑在后端服务器上)但是并不能完美的实现【3】JavaScript......
  • oracle数据库导出数据时密码中存在特殊符号的情况处理
    oracle数据库导出指定的表数据,直接在windows的cmd命令行执行如下命令:expwz9199/""“wzz@123"”"@172.17.34.40:1521/orclfile=E:\temp\exp.dmptables=(T_User)命令详细说明:exp代表我们要进行导出操作;wz9199是用户名;wzz@123是密码;在密码两边拼接的三个双引号是为了适配密码中有......
  • SQL Server2012数据库TDE加密
    SQLServer数据库TDE加密1.1案例环境介绍完成本节数据TDE加密的演示,需要准备两台虚拟机环境,一台模拟生产数据库,一台模拟迁移还原的数据库环境。1.1.1案例环境配置完成本章案例数据备份部分的学习,需要准备3个节点的环境。具体环境配置要求,见表6-3。表6-3本案例环境配置序......
  • 【数据分析】台风灾害期间房屋损坏率预测
    项目介绍台风灾害期间房屋损坏率预测。该数据集来源于荷兰红十字会提供的510全球数据库,包括过去二十年来菲律宾发生的12次典型台风的数据,数据见文件all.csv。以下是这些台风的名称:“Bopha”,“Goni”,“Hagupit”,“Haima”,“Haiyan”,Kalmaegi”,“Koppu”,“Melor”,“......
  • 【视频讲解】Python、R时间卷积神经网络TCN与CNN、RNN预测时间序列3实例附代码数据
    全文链接:https://tecdat.cn/?p=36944原文出处:拓端数据部落公众号本文旨在探讨时间卷积网络(TemporalConvolutionalNetwork,TCN)与CNN、RNN在预测任务中的应用。通过引入TCN模型,我们尝试解决时间序列数据中的复杂依赖关系,以提高预测的准确性。本文首先介绍了TCN的基本原理,随后详......
  • Redis数据类型与实现结构
    Redis提供了多种数据类型,每种数据类型都有其独特的实现结构和使用场景。以下是Redis中常见的数据类型及其底层实现结构:字符串(String)字符串是最基本的数据类型,可以存储二进制安全的字符串、整数或浮点数。实现结构:Redis使用 SDS(SimpleDynamicString)结构来存储字符串,这......
  • R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测|附代码数据
    原文链接:http://tecdat.cn/?p=17950 最近我们被客户要求撰写关于的研究报告,包括一些图形和统计输出。 在本文中,我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能 数据集是  credit=read.csv("gecredit.csv", header = ......
  • 【Redis 理论与实践学习】 一、Redis的数据结构:4.Set类型
    文章目录简介Set和List的区别常用命令增删改查类命令添加元素移除元素判断元素是否存在获取集合大小获取集合所有成员随机获取元素随机移除并返回元素运算操作命令集合间操作集合间操作并存储应用场景博客点赞用户点赞操作公众号共同关注用户关注集合共同关注查询......
  • Vue系列---【如何完善自己的工具类方法?】
    1.在src目录下新建一个util目录2.新建一个CommonUtil.js文件这里我以集合去重方法为例//根据code去重exportfunctionremoveDuplicate(arr){letobj={};arr=arr.reduce((newArr,next)=>{obj[next.code]?"":(obj[next.code]=true&&newArr.push(......
  • Oracle系列---【如何修改oracle密码?优雅切换密码】
    1.问题描述接审计要求,已上线的数据库的密码属于弱口令,需要更改成严格的,但是服务又不能停机,这种情况下,只能在原有用户名上新增代理用户,这里不能用新建用户的方案,因为用户间不能共用schema,所以只能用新增代理用户的方案。切换到代理用户的过程中发现,"ORA-28000:Theaccountisl......