首页 > 其他分享 >kettle从入门到精通 第七十五课 ETL之kettle血缘,数据血缘

kettle从入门到精通 第七十五课 ETL之kettle血缘,数据血缘

时间:2024-07-15 10:30:32浏览次数:7  
标签:kettle ETL neo4j 血缘 数据 etl

在了解kettle血缘之前,咱们先来了解下什么是数据血缘?

1、数据血缘定义(来自gpt)

数据血缘(Data Lineage)是指在数据管理和数据分析中追踪数据的源头、流向和处理过程的能力。具体来说,数据血缘描述了数据如何被创建、变换和移动,以及这些过程中数据的路径和影响。它有助于理解数据的可靠性、完整性和可信度,是数据治理和合规性的重要组成部分。

在数据血缘中,常见的元素包括:

  1. 数据起源和输入:数据的来源,即数据是从何处获取的,可以是数据库、文件、API等。
  2. 数据转换和处理:数据如何被修改、转换、整合或聚合,包括数据清洗、计算和推断过程。
  3. 数据输出和消费:经过处理后的数据被用于何种用途,可能是生成报表、支持决策、供给其他系统等。

2、阿里数据血缘定义

数据血缘可以用于查看表和表、字段和字段之间的血缘关系,从而辅助业务进行数据的溯源和管理,在作业异常时也可以帮助业务分析上下游作业影响。

 3、数据血缘管理

1)数据血缘基于数据流动,基于etl,假如没有中场景,也就不需要数据血缘。

2)数据血缘分为表级别血缘和字段级别血缘,一般情况下做到表级别血缘就可以了。这里说的表包含表和视图。

4、什么是kettle血缘

kettle是etl工具,所以kettle血缘的意思就是通过kettle的转换文件将血缘关系解析出来,通过页面呈现处理,方便排查问题。

 

4、血缘存储工具

推荐neo4j图数据库,下图基于neo4j创建两个节点,然后建立关系的一个截图。后续会整理介绍下neo4j的相关知识。

 

 

标签:kettle,ETL,neo4j,血缘,数据,etl
From: https://www.cnblogs.com/zjBoy/p/18297491

相关文章

  • maven拉取pentaho-kettle依赖
    问题pentaho-kettle不在maven中央仓库里,且官方不再维护,所以中央库和阿里镜像库都拉取不到。解决办法添加资源库配置<repositories><repository><id>pentaho-kettle</id><name>pentaho-kettle仓库</name><url>https://repo.orl.eng.hitachi......
  • 数据血缘系列(3)—— 数据血缘可视化之美
    大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。本文我们详细探讨下数据血缘可视化是什么,该如何实现。并顺便对比一下ApacheAtlas、Datahub、Openmetadata、Marquez、SQLLineage、Amundsen的数据血缘......
  • 【粉丝福利社】《数据血缘分析原理与实践》(文末送书-进行中)
    ......
  • 三分钟了解一款强大的网络设备模拟器:PNETLab
    PNETLab是一个多功能平台,允许用户下载和分享网络实验室给更广泛的社区成员。它主要由两个核心组件组成:PNETLabBox和PNETLabStore,这两个部分各自承担不同的但又相互补充的作用,共同推动网络模拟和教育的发展。官网地址:https://pnetlab.com/特性:下载:实验商店:PNETLabB......
  • 数据血缘系列(2)——什么是数据血缘?
    大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。对于数据血缘的定义,一直都有争论,本文我们详细探讨下什么是数据血缘,并说明数据血缘能分析什么。本文为《数据血缘分析原理与实践》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请......
  • 数据血缘系列(1)—— 为什么需要数据血缘?
    大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。本文我们详细探讨下为什么需要数据血缘,并说明数据血缘如何帮助企业解决关键问题,特别是在不同行业中的实际应用。本文为《数据血缘分析原理与实践》一书读书笔记,部分观点参考自书中原文,如需更......
  • 好书推荐《数据血缘分析原理与实践 》:数据治理神兵利器
    大家好,我是独孤风。又到了好书推荐的时间。近几年来,国内数据治理蓬勃发展,数据的价值不断放大,数据正成为一种资产,也是新型的生产要素。数据血缘一词作为数据治理的一个核心概念,更是被频频提及。但是国内数据治理方面的书籍还是少之又少,大多数还停留在纯理论阶段,与实践,行业联系不够......
  • 火山引擎数据飞轮实践:在电商场景中,如何建设全链路数据血缘?
    数据作为新型生产要素,正支撑企业的数智化转型。但企业数字化建设也存在管理成本高、数据产品使用门槛高、数据资产价值不够的问题,其原因在于业务和数据之间没有形成双向良性驱动。 结合新时代企业数字化转型需求,火山引擎基于字节跳动十余年数据驱动的实践经验,对外发布企业数智......
  • Moretl 智能制造日志采集 1.1.0.3发布
    永久免费:前往Gitee最新版本更新内容Winform全部切换到.NetFramework4.0.更符合大部分的自动化设备.Web提供.NetFramework4.0的运行时环境安装包Web打开时,若当前IP为设备,直接显示设备信息介绍用途:定时全量或增量采集工控机,办公电脑文件以及日志.(SCADA,Io......
  • Moretl 工厂设备日志采集 1.1.0.3发布
    永久免费:前往Gitee最新版本更新内容Winform全部切换到.NetFramework4.0.更符合大部分的自动化设备.Web提供.NetFramework4.0的运行时环境安装包Web打开时,若当前IP为设备,直接显示设备信息介绍用途:定时全量或增量采集工控机,办公电脑文件以及日志.(SCADA,Io......