HUDI

2024-10-10【Flink 系列二十三】hudi 消失的 HIVE_CONF_DIR，HIVE 读不到 hive-site.xml 读不到
问题现象Unabletofindconfigfilehive-site.xmlUnabletofindconfigfilehivemetastore-site.xmlUnabletofindconfigfilemetastore-site.xml本文记录这个问题是如何导致的，并记录如何向Hive、Hudi提供hive-site.xml以便正确加载。问题分析:HiveMetaStore是
2024-08-06《数据资产管理核心技术与应用》读书笔记-第二章：元数据的采集与存储
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与
2024-07-25整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0
一、环境准备1.环境准备：flink1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flinkweb平台二.编译hudi（这个编译是以前的一个测试版本，编译大同小异）1.使用git命令下载hudi0.10的代码steven@wangyuxiangdeMacBook-Pro~gitclonehttps://github.com/ap
2024-07-22Hudi与Spark结合使用
Hudi与Spark结合
2024-07-22Hudi测试
实验环境minio-8.0.10http://192.168.137.100:32000/minio/bigdata/spark-operator-1.1.26spark-history-server3.2.2http://192.168.137.100:32627/测试案例案例hudi-spark-test001apiVersion:"sparkoperator.k8s.io/v1beta2"kind:SparkApplicationmetadata:
2024-06-23Grab 基于 Apache Hudi 实现近乎实时的数据分析
介绍在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。Vanilla数据湖解决方案构建在具有Hive元存储的云对象存储之上，其中数据文件以P
2024-05-29【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第四套样题
2023年全国职业院校技能大赛赛题第04套赛项名称：大数据应用开发英文名称： BigDataApplicationDevelopment 赛项组别：高等职业教育组赛项编号：
2024-05-28CDC 数据实时同步入湖的技术、架构和方案（截至2024年5月的现状调研）
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手
2024-05-26Lakehouse 还是 Warehouse？(1/2)
Onehouse创始人/首席执行官VinothChandar于2022年3月在奥斯汀数据委员会发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”，这是一个由社区驱动的活动，包括数据科学、数据工程、分析、机器学习（ML）、人工智能（AI）等。VinothChandar在Uber工作期
2024-04-01探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析
华为云数仓GaussDB(DWS)研发专家高若岳老师，深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接。随着智能数据时代的到来，数据量爆发式增长，数据形态呈海量化和多样化发展，不再是单一的结构化数据。从海量和多样化的数据做融合分析，创造更多业务价值的诉求日益强烈。在本期《Ga
2024-03-26Hudi部署
目录前言Hudi的介绍一、Hudi是什么？二、Hudi的特点功能和优势三、Hudi的使用场景Hudi的搭建部署一、准备二、搭建1）搭建JAVA环境和Hadoop环境2）部署zookeeper3）部署Sparkonyarn4）部署maven环境5）部署Hudi环境三、执行编译，构建mavenHudi的简单使用一、准备案例二、
2024-03-24Apache Hudi从零到一：存储格式初探
在花了大约4年时间致力于ApacheHudi（其中包括3年Committer身份）之后，我决定开始这个博客系列，旨在以有组织且适合初学者的方式展示Hudi的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包含10篇文章，每篇文章都会深入探讨Hudi
2024-03-13Flink实时写Hudi报NumberFormatException异常
Flink实时写Hudi报NumberFormatException异常问题描述在Flink项目中，针对Hudi表xxxx_table的bucket_write操作由于java.lang.NumberFormatException异常而从运行状态切换到失败状态。异常信息显示在解析字符串"ddd7a1ec"为整数时出现了问题。报错如下：bucket_write:
2024-02-28Hudi-FlinkSQL导入数据报错：[ERROR] Could not execute SQL statement. Reason: java.lang.ClassNotFoundExceptio
问题描述通过FlinkSQL创建Hudi表后，向表中插入数据报错：[ERROR]CouldnotexecuteSQLstatement.Reason:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInputStream 解决办法向Hudi表中写入数据时，会调用Hadoop的Jar包，但是Flink的lib目录中没有该Jar包。
2024-02-25记录级别索引：Hudi 针对大型数据集的超快索引
介绍索引是一个关键组件，有助于Hudi写入端快速更新和删除，并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型，包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大
2024-01-251、读取hudi表问题 readDirect unsupported in RemoteBlockReader
Causedby:java.lang.UnsupportedOperationException:readDirectunsupportedinRemoteBlockReaderatorg.apache.hadoop.hdfs.RemoteBlockReader.read(RemoteBlockReader.java:492)atorg.apache.hadoop.hdfs.DFSInputStream$ByteBufferStr
2024-01-14Apache Hudi在信息服务行业构建流批一体的实践
个人介绍李昂高级数据研发工程师ApacheDoris&HudiContributor业务背景部门成立早期,为了应对业务的快速增长,数仓架构采用了最直接的Lambda架构对数据新鲜度要求不高的数据,采用离线数仓做维度建模,采用每小时调度binlog+每日主键归并的方式实现T+1数据更新对数
2024-01-05hudi数据湖
字节跳动基于Hudi的实时数据湖平台https://developer.volcengine.com/articles/7220345269954003004 数仓实时化改造：HudionFlink在顺丰的实践应用https://www.logclub.com/articleInfo/NDE1NTk= Hudi的核心优势主要分为两部分：首先，Hudi提供了一个在Hadoop中
2023-12-17阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
湖仓一体（LakeHouse）是大数据领域的重要发展方向，提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台，提供日志、CDC等多种数据源一键入湖，在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB for MySQL基于Apache
2023-12-14Hudi 在 vivo 湖仓一体的落地实践
作者：vivo互联网大数据团队-XuYu在增效降本的大背景下，vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。一、Hudi基础能力及相关概念介绍1.1流批同源能力与Hive不同，Hudi数据在Spark/Flink
2023-11-05Apache Hudi Timeline：支持 ACID 事务的基础
ApacheHudi维护在给定表上执行的所有操作的Timeline（时间线），以支持以符合ACID的方式高效检索读取查询的数据。在写入和表服务期间也会不断查阅时间线，这是表正常运行的关键。如果任何时间线操作出现混乱（由于多写入未配置锁提供程序等），则可能导致数据一致性问题（数据丢失或数据重
2023-09-27Apache Hudi 使用指南
欢迎参观我的博客，一个Vue与SpringBoot结合的产物：https://poetize.cn博客：https://gitee.com/littledokey/poetize-vue2.git聊天室：https://gitee.com/littledokey/poetize-im-vue3.git后端：https://gitee.com/littledokey/poetize.git七牛云登录/注册地址（文件服务器，CDN）：https:/
2023-09-09hudi-0.12 编译与集成
环境hadoop：2.7.2 hive：2.3.1 spark：2.4.4 flink：1.13.01.下载hudi源码包Indexof/dist/hudi/0.12.0(apache.org) hudi-0.12.0.src.tgztar-zxfhudi-0.12.0.src.tgz-C/hadoop/app/2.安装maventar-zxf apache-maven-3.6.1.tar.gz配置settings<mirror> <id&g
2023-09-03CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
ApacheHudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类，它简化了流式数据入湖并存储为Hudi表的操作，自0.10.0版开始，Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力，这使得其可以直接将Debezium采集的CDC数据落地成Hudi表，这一功能极大地简