MOR
  • 2024-03-24Apache Hudi从零到一:存储格式初探
    在花了大约4年时间致力于ApacheHudi(其中包括3年Committer身份)之后,我决定开始这个博客系列,旨在以有组织且适合初学者的方式展示Hudi的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包含10篇文章,每篇文章都会深入探讨Hudi
  • 2023-12-06聊聊大数据框架的数据更新策略: COW,MOR,MOW
    大数据框架下,常用的数据更新策略有三种:COW:copy-on-write,写时复制;MOR:merge-on-read,读时合并;MOW:merge-on-write,写时合并;hudi等数据湖仓框架,常用的是前两种实现数据更新。而Doris则主要用后两种更新数据。COW在数据写入的时候,复制一份原来的拷贝,在其基础上添加
  • 2023-05-30Hudi表类型和查询类型
    官方参考Table&QueryTypes查询类型快照查询(SnapshotQueries)查询最新的数据。增量查询(IncrementalQueries)查询指定时间范围内新增或修改的数据。读优化查询(ReadOptimizedQueries)仅查询Parquet格式的基础文件中的数据,为MOR表特有。表类型支持的查询类
  • 2023-05-16Hudi的ro和rt表
    建表后并不会产生ro和rt两个表:spark-sql>createtablehudi_mor_tbl(>idint,>namestring,>pricedouble,>tsbigint>)usinghudi>tblproperties(>type=&#
  • 2023-05-16正确DROP掉MOR类型的HUDI表
    假设有一张下面这样的MOR类型的hudi表:CREATETABLEt_test_001(dsBIGINTCOMMENT'ds',utBIGINTCOMMENT'ut',pkBIGINTCOMMENT'pk',a0BIGINTCOMMENT'a0',a1BIGINTCOMMENT'a1',a2BIGIN