Hudi

2025-01-08「零售数据通道」数据炼金术：千亿级流量资产湖仓架构转型
作者：京东零售陈美航0前言在流量领域的转化分析、搜索推广算法及AI等数据分析应用场景中，流量资产的质量直接影响到业务的监测和运营。作为流量资产的基石，流量数仓在应对快速变化和多样化的业务需求时，如何在提高效率、优化用户体验和控制成本方面做到最佳？本文将方案设计、链路优
2024-12-29Hudi数据湖_数据写原理_COW和MOR表Upsert原理_Flink和Spark写入区别_Insert和Overwrit原理---大数据之Hudi数据湖工作笔记0010
可以看到数据写操作,有三种方式upsert就是通过index索引来,对数据到底是insert还是update会做上标记,并且,只有索引到了数据才会update,所以是依赖index索引的.insert就是不停的插入数据,跳过了index,插入快,但是有重复数据,可能需要自己处理bulk_insert 写排序默认
2024-12-27医院大数据平台建设：基于快速流程化工具集的考察
一、大数据平台搭建（一）基础环境准备搭建医院大数据平台，首先需准备好基础环境，这是后续软件安装与配置能够顺利进行的重要前提。在硬件方面，要根据医院的数据规模和预期使用情况，配备足够性能的服务器、存储设备等。服务器的处理器性能、内存大小以及存储设备的容量和读写速度等
2024-12-17老板既要又要还要......我用Doris+Hudi把不可能变成了日常
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了D
2024-12-02优化Hudi索引文件的性能的方法
Hudi索引文件是Hudi数据湖框架中的一个关键组件。它主要用于记录数据记录（通常通过主键来标识）与存储位置之间的映射关系。就像图书馆的索引系统一样，能够帮助快速定位到具体数据存储的位置，从而实现高效的数据更新、插入和删除操作。在大数据环境中，没有高效的索引，数据操作
2024-10-10【Flink 系列二十三】hudi 消失的 HIVE_CONF_DIR，HIVE 读不到 hive-site.xml 读不到
问题现象Unabletofindconfigfilehive-site.xmlUnabletofindconfigfilehivemetastore-site.xmlUnabletofindconfigfilemetastore-site.xml本文记录这个问题是如何导致的，并记录如何向Hive、Hudi提供hive-site.xml以便正确加载。问题分析:HiveMetaStore是
2024-08-06《数据资产管理核心技术与应用》读书笔记-第二章：元数据的采集与存储
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与
2024-07-25整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0
一、环境准备1.环境准备：flink1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flinkweb平台二.编译hudi（这个编译是以前的一个测试版本，编译大同小异）1.使用git命令下载hudi0.10的代码steven@wangyuxiangdeMacBook-Pro~gitclonehttps://github.com/ap
2024-07-22Hudi与Spark结合使用
Hudi与Spark结合
2024-07-22Hudi测试
实验环境minio-8.0.10http://192.168.137.100:32000/minio/bigdata/spark-operator-1.1.26spark-history-server3.2.2http://192.168.137.100:32627/测试案例案例hudi-spark-test001apiVersion:"sparkoperator.k8s.io/v1beta2"kind:SparkApplicationmetadata:
2024-06-23Grab 基于 Apache Hudi 实现近乎实时的数据分析
介绍在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。Vanilla数据湖解决方案构建在具有Hive元存储的云对象存储之上，其中数据文件以P
2024-05-29【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第四套样题
2023年全国职业院校技能大赛赛题第04套赛项名称：大数据应用开发英文名称： BigDataApplicationDevelopment 赛项组别：高等职业教育组赛项编号：
2024-05-28CDC 数据实时同步入湖的技术、架构和方案（截至2024年5月的现状调研）
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手
2024-05-26Lakehouse 还是 Warehouse？(1/2)
Onehouse创始人/首席执行官VinothChandar于2022年3月在奥斯汀数据委员会发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”，这是一个由社区驱动的活动，包括数据科学、数据工程、分析、机器学习（ML）、人工智能（AI）等。VinothChandar在Uber工作期
2024-04-01探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析
华为云数仓GaussDB(DWS)研发专家高若岳老师，深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接。随着智能数据时代的到来，数据量爆发式增长，数据形态呈海量化和多样化发展，不再是单一的结构化数据。从海量和多样化的数据做融合分析，创造更多业务价值的诉求日益强烈。在本期《Ga
2024-03-26Hudi部署
目录前言Hudi的介绍一、Hudi是什么？二、Hudi的特点功能和优势三、Hudi的使用场景Hudi的搭建部署一、准备二、搭建1）搭建JAVA环境和Hadoop环境2）部署zookeeper3）部署Sparkonyarn4）部署maven环境5）部署Hudi环境三、执行编译，构建mavenHudi的简单使用一、准备案例二、
2024-03-24Apache Hudi从零到一：存储格式初探
在花了大约4年时间致力于ApacheHudi（其中包括3年Committer身份）之后，我决定开始这个博客系列，旨在以有组织且适合初学者的方式展示Hudi的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包含10篇文章，每篇文章都会深入探讨Hudi
2024-03-13Flink实时写Hudi报NumberFormatException异常
Flink实时写Hudi报NumberFormatException异常问题描述在Flink项目中，针对Hudi表xxxx_table的bucket_write操作由于java.lang.NumberFormatException异常而从运行状态切换到失败状态。异常信息显示在解析字符串"ddd7a1ec"为整数时出现了问题。报错如下：bucket_write:
2024-02-28Hudi-FlinkSQL导入数据报错：[ERROR] Could not execute SQL statement. Reason: java.lang.ClassNotFoundExceptio
问题描述通过FlinkSQL创建Hudi表后，向表中插入数据报错：[ERROR]CouldnotexecuteSQLstatement.Reason:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInputStream 解决办法向Hudi表中写入数据时，会调用Hadoop的Jar包，但是Flink的lib目录中没有该Jar包。
2024-02-25记录级别索引：Hudi 针对大型数据集的超快索引
介绍索引是一个关键组件，有助于Hudi写入端快速更新和删除，并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型，包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大
2024-01-251、读取hudi表问题 readDirect unsupported in RemoteBlockReader
Causedby:java.lang.UnsupportedOperationException:readDirectunsupportedinRemoteBlockReaderatorg.apache.hadoop.hdfs.RemoteBlockReader.read(RemoteBlockReader.java:492)atorg.apache.hadoop.hdfs.DFSInputStream$ByteBufferStr
2024-01-14Apache Hudi在信息服务行业构建流批一体的实践
个人介绍李昂高级数据研发工程师ApacheDoris&HudiContributor业务背景部门成立早期,为了应对业务的快速增长,数仓架构采用了最直接的Lambda架构对数据新鲜度要求不高的数据,采用离线数仓做维度建模,采用每小时调度binlog+每日主键归并的方式实现T+1数据更新对数
2024-01-05hudi数据湖
字节跳动基于Hudi的实时数据湖平台https://developer.volcengine.com/articles/7220345269954003004 数仓实时化改造：HudionFlink在顺丰的实践应用https://www.logclub.com/articleInfo/NDE1NTk= Hudi的核心优势主要分为两部分：首先，Hudi提供了一个在Hadoop中
2023-12-17阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
湖仓一体（LakeHouse）是大数据领域的重要发展方向，提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台，提供日志、CDC等多种数据源一键入湖，在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB for MySQL基于Apache