• 2024-05-12Spark - [03] RDD概述
    RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。  二、RDD的属性①一组分区(Partition),即数据
  • 2023-08-07基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理
    一、背景早期的数仓生产体系主要以离线数仓为主,业务按照自己的业务需求将数仓分为不同的层次,例如DWD、DWS、ADS等。在离线数仓中,业务数据会经过离线ETL加工进入数仓,层与层之间的数据转换也会使用离线ETL来进行处理。ADS层可以直接对外提供Serving能力,中间层通常会使用Hiv
  • 2023-01-24进程间通信常见方式(4种,这里说管道、fifo、共享存储映射)
    学习地址IPC即进程间通信进程间通信框架如下:进程间通信方式如下:管道得有血缘关系管道前提作用于有血缘关系的进程间插曲mkfifof1实现原理内核借助环形
  • 2022-11-02SQLFlow:在线解析SQL血缘关系(SQL Data Lineage)
    此软件应该是收费的,可以免费试用30天SQLFlow:在线解析SQL血缘关系(SQLDataLineage)血缘关系分析工具SQLFLOW--实践指南
  • 2022-08-22什么是数据血缘,如何做好数据血缘分析?
    大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,也在爆发性增长,这导致了数据之间的关系也变得越发复杂。因此对数据工程师来说,如何管理表之间、代码之间的复杂关