• 2023-09-27Apache Hudi 使用指南
    欢迎参观我的博客,一个Vue与SpringBoot结合的产物:https://poetize.cn博客:https://gitee.com/littledokey/poetize-vue2.git聊天室:https://gitee.com/littledokey/poetize-im-vue3.git后端:https://gitee.com/littledokey/poetize.git七牛云登录/注册地址(文件服务器,CDN):https:/
  • 2023-09-03CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
    ApacheHudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自0.10.0版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debezium采集的CDC数据落地成Hudi表,这一功能极大地简
  • 2023-08-14Amazon EMR Hudi 性能调优——Clustering
    随着数据体量的日益增长,人们对Hudi的查询性能也提出更多要求,除了Parquet存储格式本来的性能优势之外,还希望Hudi能够提供更多的性能优化的技术途径,尤其当对Hudi表进行高并发的写入,产生了大量的小文件之后,又需要使用Presto/Trino对Hudi表进行高吞吐的即席查询的场景里。
  • 2023-07-09如何不加锁地将数据并发写入Apache Hudi?
    最近一位Hudi用户询问他们是否可以在不需要任何锁的情况下同时从多个写入端写入单个Hudi表。他们场景是一个不可变的工作负载。一般来说对于任何多写入端功能,Hudi建议启用锁定配置。但这是一个有趣的问题,我们进行探索并找到了解决方案,因此与更广泛的社区分享。需要并发写
  • 2023-05-31Hudi表创建时HDFS上的变化
    SparkSQL建Hudi表语句:CREATETABLEt71(dsBIGINT,utSTRING,pkBIGINT,f0BIGINT,f1BIGINT,f2BIGINT,f3BIGINT,f4BIGINT)USINGhudiPARTITIONEDBY(ds)TBLPROPERTIES(--这里也可使用options(https://hudi.apache.org/
  • 2023-05-30Hudi表类型和查询类型
    官方参考Table&QueryTypes查询类型快照查询(SnapshotQueries)查询最新的数据。增量查询(IncrementalQueries)查询指定时间范围内新增或修改的数据。读优化查询(ReadOptimizedQueries)仅查询Parquet格式的基础文件中的数据,为MOR表特有。表类型支持的查询类
  • 2023-05-30Hudi的OverwriteNonDefaultsWithLatestAvroPayload效果测试
    设置Payload为OverwriteNonDefaultsWithLatestAvroPayload:set`hoodie.datasource.write.payload.class`=`org.apache.hudi.common.model.OverwriteNonDefaultsWithLatestAvroPayload`;插入和查询语句:insertintot71(ds,ut,pk,f0)values(20230101,CURRENT_TIMESTAMP,10
  • 2023-05-08Hudi学习笔记5 - Hudi配置分析(1)
    Hudi官方配置文档:https://hudi.apache.org/docs/configurations,从源码分析可以看到配置项hoodie.payload.ordering.field已经废弃,取而代之的是hoodie.datasource.write.precombine.field。ConfigPropertyConfigProperty聚合了HoodieConfig。//https://github.com/apac
  • 2023-05-08Hudi学习笔记4 - Hudi配置之Spark配置
    SparkDatasourceConfigs读配置配置项是否必须默认值配置说明as.of.instantYN/A0.9.0版本新增,时间旅行查询从哪儿开始,有两种格式的值:yyyyMMddHHmmss和yyyy-MM-ddHH:mm:ss,如果不指定则从最新的snapshot开始hoodie.file.index.enableNtruehoodie.
  • 2023-05-06Hudi学习笔记(2)
    https://hudi.apache.org/docs/configurationsHudi配置分类SparkDatasourceConfigsSparkDatasource的配置。FlinkSqlConfigsFlinkSQLsource/sinkconnectors的配置,如:index.type、write.tasks、write.operation、clean.policy、clean.retain_commits、clean.reta
  • 2023-05-06Hudi学习笔记(1)
    使用注意从0.10.0版本开始,primaryKey为必须的,不再支持没有主键的表。primaryKey、primaryKey和type均大小写敏感。对于MOR类型的表,preCombineField为必须的。当设置primaryKey、primaryKey或type等hudi配置时,tblproperties优先于options。使用S
  • 2023-03-05Apache Hudi 0.13.0版本重磅发布!
    ApacheHudi0.13.0版本引入了许多新功能,包括Metaserver、变更数据捕获、新的RecordMergeAPI、Deltastreamer支持新数据源等。虽然此版本不需要表版本升级,但希望用户
  • 2022-11-24Hudi Upsert原理
    1.前言如果要深入了解ApacheHudi技术的应用或是性能调优,那么明白源码中的原理对我们会有很大的帮助。Upsert是ApacheHudi的核心功能之一,主要完成增量数据在HDFS/对象存
  • 2022-11-07华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
    背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研,并落地在华
  • 2022-09-29一种Hudi on Flink动态同步元数据变化的方法
    一、背景一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。二、官方SchemaEvolution例子从Hudi官方文档SchemaEvolution(https://hudi.apach
  • 2022-09-26基于 Apache Hudi 极致查询优化的探索实践
    摘要:本文主要介绍Presto如何更好的利用Hudi的数据布局、索引信息来加速点查性能。本文分享自华为云社区《华为云基于ApacheHudi极致查询优化的探索实践!》,作者:FI_m