网站首页
编程语言
数据库
系统相关
其他分享
编程问答
血缘关系
2024-05-12
Spark - [03] RDD概述
RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 二、RDD的属性①一组分区(Partition),即数据
2023-08-07
基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理
一、背景早期的数仓生产体系主要以离线数仓为主,业务按照自己的业务需求将数仓分为不同的层次,例如DWD、DWS、ADS等。在离线数仓中,业务数据会经过离线ETL加工进入数仓,层与层之间的数据转换也会使用离线ETL来进行处理。ADS层可以直接对外提供Serving能力,中间层通常会使用Hiv
2023-01-24
进程间通信常见方式(4种,这里说管道、fifo、共享存储映射)
学习地址IPC即进程间通信进程间通信框架如下:进程间通信方式如下:管道得有血缘关系管道前提作用于有血缘关系的进程间插曲mkfifof1实现原理内核借助环形
2022-11-02
SQLFlow:在线解析SQL血缘关系(SQL Data Lineage)
此软件应该是收费的,可以免费试用30天SQLFlow:在线解析SQL血缘关系(SQLDataLineage)血缘关系分析工具SQLFLOW--实践指南
2022-08-22
什么是数据血缘,如何做好数据血缘分析?
大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,也在爆发性增长,这导致了数据之间的关系也变得越发复杂。因此对数据工程师来说,如何管理表之间、代码之间的复杂关