首页 > 其他分享 >Hudi数据湖_数据写原理_COW和MOR表Upsert原理_Flink和Spark写入区别_Insert和Overwrit原理---大数据之Hudi数据湖工作笔记0010

Hudi数据湖_数据写原理_COW和MOR表Upsert原理_Flink和Spark写入区别_Insert和Overwrit原理---大数据之Hudi数据湖工作笔记0010

时间:2024-12-29 12:26:51浏览次数:7  
标签:insert Hudi index update 索引 原理 数据 upsert

可以看到数据写操作,有三种方式

upsert 就是通过index索引来,对数据到底是insert还是update 会做上标记,并且,只有索引到了数据才会update,所以是依赖index索引的.

insert 就是不停的插入数据,跳过了index,插入快,但是有重复数据,可能需要自己处理

bulk_insert  写排序

默认的是upsert,用的最多.

首先来看一下对与COW表的upsert可以看到

1.首先要对records按照record key去重,因为对于insert模式是可以插入重复数据的,所以要去重.因为在这里是允许主键重复的.

比如有数据:

1 a

2 b

3 c

1 a

这里的1 a就有一条重复的数据主键也是重复的.

2.然后对前来upsert的数据进行,创建索引,同时判断出,哪些数据是需要update,哪些数据需要insert插入.

3.对于需要update的,会直接找到key对应的文件片

标签:insert,Hudi,index,update,索引,原理,数据,upsert
From: https://blog.csdn.net/lidew521/article/details/144724602

相关文章

  • 电商行业数据分析之库存周转率分析
    一、项目背景某电商企业经营各类电子产品,包括手机、电脑、平板、耳机等。随着业务规模的不断扩大,库存管理成为了一个关键问题。企业发现部分商品库存积压严重,占用了大量资金,而部分商品又时常缺货,影响了客户满意度和销售业绩。因此,决定开展库存周转率分析,以优化库存管理策略,提......
  • 制造业行业数据挖掘之质量控制
    一、案例背景某汽车零部件制造企业主要生产发动机缸体等关键零部件,产品供应给多家知名汽车制造商。随着汽车行业竞争的加剧以及对产品质量要求的不断提高,企业面临着严格的质量标准和客户的高期望。尽管企业已经实施了传统的质量控制方法,但仍存在一定比例的次品率,且难以提前预......
  • 制造业行业数据挖掘之供应链优化
    一、案例背景某电子设备制造企业生产多种电子产品,其供应链涵盖原材料采购、零部件生产、产品组装、成品仓储与配送等多个环节,涉及众多供应商、生产工厂、仓库和销售渠道。随着市场竞争加剧和客户需求多样化,企业面临着供应链成本上升、交付周期延长、库存积压与缺货并存等问题......
  • 医疗行业数据挖掘之疾病预测
    一、案例背景某大型综合医院拥有海量的患者电子病历数据以及先进的医疗检测设备所产生的数据。随着糖尿病发病率的逐年上升,医院希望通过数据挖掘技术,利用这些丰富的数据资源来构建一个糖尿病预测模型,以便在早期识别出潜在的糖尿病患者,提前进行干预和治疗,从而降低糖尿病的发病......
  • 【故障诊断】【pytorch】基于CNN-LSTM故障分类的轴承故障诊断研究[西储大学数据](Pytho
         ......
  • 2 海量数据去重的问题
    问题:40亿QQ号,1G内存,怎么去重方式1:使用bitmap进行海量数据去重如果我们硬算,从1到40亿和40亿个QQ号做比对,然后有的就存储下来,没有就放弃,第一个性能很差,第二不满足1G内存的要求。这里我们使用bitmap进行海量数据去重的方式。什么是bitmap算法?其实很简单,假如我们有4个......
  • 头歌实训数据结构与算法-二叉树及其应用(第7关:由前序和中序遍历序列构造二叉树)
    任务描述本关任务要求采用前序遍历序列和中序遍历序列构造二叉树。相关知识给定一棵二叉树的前序遍历序列和中序遍历序列可以构造出这棵二叉树。例如前序序列是ABDECFG,中序序列是DBEAFCG,那么这颗二叉树的结构如图1所示。树结点结构定义为:structBTNode{    c......
  • .Net Core 8 NLog连接PostgreSQL数据库
    最近在做的项目需要把日志记录到本地和数据库,我使用的是NLog,主要参考博文链接:.NET项目中NLog的配置与使用-追逐时光者-博客园,下面是NLog连接PostgreSQL数据库的步骤,网上关于NLog连接PostgreSQL数据库的实例比较少,大多数都是mysql的。1、创建Nlog.config配置文件,将下面配置文......
  • 煤和传送带(皮带)识别数据集,使用YOLO,COCO,VOC格式标注,能精准识别皮带和煤,平均识别率高达9
    煤和传送带(皮带)识别数据集,使用YOLO,COCO,VOC格式标注,平均识别率高达99.5%数据集下载yolov11: https://download.csdn.net/download/pbymw8iwm/90140092yolov9:  https://download.csdn.net/download/pbymw8iwm/90140093yolov8: https://download.csdn.net/download/pb......
  • uniapp不能直接修改props的数据原理浅析
    uniapp不能直接修改props的数据Avoidmutatingapropdirectlysincethevaluewillbeoverwrittenwhenevertheparentcomponentre-renders.Instead,useadataorcomputedpropertybasedontheprop'svalue.Propbeingmutated:"expectDeliveryAt"......