• 2024-06-23Grab 基于 Apache Hudi 实现近乎实时的数据分析
    介绍在数据处理领域,数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口,可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率,选择合适的存储格式至关重要。Vanilla数据湖解决方案构建在具有Hive元存储的云对象存储之上,其中数据文件以P
  • 2024-05-29【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第四套样题
    2023年全国职业院校技能大赛赛题第04套赛项名称:        大数据应用开发        英文名称: BigDataApplicationDevelopment 赛项组别:        高等职业教育组               赛项编号:             
  • 2024-05-28CDC 数据实时同步入湖的技术、架构和方案(截至2024年5月的现状调研)
    博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手
  • 2024-05-26Lakehouse 还是 Warehouse?(1/2)
    Onehouse创始人/首席执行官VinothChandar于2022年3月在奥斯汀数据委员会发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”,这是一个由社区驱动的活动,包括数据科学、数据工程、分析、机器学习(ML)、人工智能(AI)等。VinothChandar在Uber工作期
  • 2024-04-01探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析
    华为云数仓GaussDB(DWS)研发专家高若岳老师,深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接。随着智能数据时代的到来,数据量爆发式增长,数据形态呈海量化和多样化发展,不再是单一的结构化数据。从海量和多样化的数据做融合分析,创造更多业务价值的诉求日益强烈。在本期《Ga
  • 2024-03-26Hudi部署
    目录前言Hudi的介绍一、Hudi是什么?二、Hudi的特点功能和优势三、Hudi的使用场景Hudi的搭建部署一、准备二、搭建1)搭建JAVA环境和Hadoop环境2)部署zookeeper3)部署Sparkonyarn4)部署maven环境5)部署Hudi环境三、执行编译,构建mavenHudi的简单使用一、准备案例二、
  • 2024-03-24Apache Hudi从零到一:存储格式初探
    在花了大约4年时间致力于ApacheHudi(其中包括3年Committer身份)之后,我决定开始这个博客系列,旨在以有组织且适合初学者的方式展示Hudi的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包含10篇文章,每篇文章都会深入探讨Hudi
  • 2024-03-13Flink实时写Hudi报NumberFormatException异常
    Flink实时写Hudi报NumberFormatException异常问题描述在Flink项目中,针对Hudi表xxxx_table的bucket_write操作由于java.lang.NumberFormatException异常而从运行状态切换到失败状态。异常信息显示在解析字符串"ddd7a1ec"为整数时出现了问题。报错如下:bucket_write:
  • 2024-02-28Hudi-FlinkSQL导入数据报错:[ERROR] Could not execute SQL statement. Reason: java.lang.ClassNotFoundExceptio
    问题描述通过FlinkSQL创建Hudi表后,向表中插入数据报错:[ERROR]CouldnotexecuteSQLstatement.Reason:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInputStream 解决办法向Hudi表中写入数据时,会调用Hadoop的Jar包,但是Flink的lib目录中没有该Jar包。
  • 2024-02-25记录级别索引:Hudi 针对大型数据集的超快索引
    介绍索引是一个关键组件,有助于Hudi写入端快速更新和删除,并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型,包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大
  • 2024-01-251、读取hudi表问题 readDirect unsupported in RemoteBlockReader
    Causedby:java.lang.UnsupportedOperationException:readDirectunsupportedinRemoteBlockReaderatorg.apache.hadoop.hdfs.RemoteBlockReader.read(RemoteBlockReader.java:492)atorg.apache.hadoop.hdfs.DFSInputStream$ByteBufferStr
  • 2024-01-14Apache Hudi在信息服务行业构建流批一体的实践
    个人介绍李昂高级数据研发工程师ApacheDoris&HudiContributor业务背景部门成立早期,为了应对业务的快速增长,数仓架构采用了最直接的Lambda架构对数据新鲜度要求不高的数据,采用离线数仓做维度建模,采用每小时调度binlog+每日主键归并的方式实现T+1数据更新对数
  • 2024-01-05hudi数据湖
    字节跳动基于Hudi的实时数据湖平台https://developer.volcengine.com/articles/7220345269954003004 数仓实时化改造:HudionFlink在顺丰的实践应用https://www.logclub.com/articleInfo/NDE1NTk=  Hudi的核心优势主要分为两部分:首先,Hudi提供了一个在Hadoop中
  • 2023-12-17阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
    湖仓一体(LakeHouse)是大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台,提供日志、CDC等多种数据源一键入湖,在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB for MySQL基于Apache 
  • 2023-12-14Hudi 在 vivo 湖仓一体的落地实践
    作者:vivo互联网大数据团队-XuYu在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。一、Hudi基础能力及相关概念介绍1.1流批同源能力与Hive不同,Hudi数据在Spark/Flink
  • 2023-11-05Apache Hudi Timeline:支持 ACID 事务的基础
    ApacheHudi维护在给定表上执行的所有操作的Timeline(时间线),以支持以符合ACID的方式高效检索读取查询的数据。在写入和表服务期间也会不断查阅时间线,这是表正常运行的关键。如果任何时间线操作出现混乱(由于多写入未配置锁提供程序等),则可能导致数据一致性问题(数据丢失或数据重
  • 2023-09-27Apache Hudi 使用指南
    欢迎参观我的博客,一个Vue与SpringBoot结合的产物:https://poetize.cn博客:https://gitee.com/littledokey/poetize-vue2.git聊天室:https://gitee.com/littledokey/poetize-im-vue3.git后端:https://gitee.com/littledokey/poetize.git七牛云登录/注册地址(文件服务器,CDN):https:/
  • 2023-09-09hudi-0.12 编译与集成
    环境hadoop:2.7.2 hive:2.3.1 spark:2.4.4 flink:1.13.01.下载hudi源码包Indexof/dist/hudi/0.12.0(apache.org)  hudi-0.12.0.src.tgztar-zxfhudi-0.12.0.src.tgz-C/hadoop/app/2.安装maventar-zxf apache-maven-3.6.1.tar.gz配置settings<mirror> <id&g
  • 2023-09-03CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
    ApacheHudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自0.10.0版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debezium采集的CDC数据落地成Hudi表,这一功能极大地简
  • 2023-08-15记录一次hudi 编译过程遇到过的问题
    准备工作pom中初始依赖组件版本配置如下<java.version>1.8</java.version><hadoop.version>3.1.1.3.1.0.0-78</hadoop.version><hive.version>3.1.0.3.1.0.0-78</hive.version><kafka.version>2.0.0</kafka.version>起始命令mvncleanpack
  • 2023-08-14Amazon EMR Hudi 性能调优——Clustering
    随着数据体量的日益增长,人们对Hudi的查询性能也提出更多要求,除了Parquet存储格式本来的性能优势之外,还希望Hudi能够提供更多的性能优化的技术途径,尤其当对Hudi表进行高并发的写入,产生了大量的小文件之后,又需要使用Presto/Trino对Hudi表进行高吞吐的即席查询的场景里。
  • 2023-08-13图加速数据湖分析-GeaFlow和Apache Hudi集成
    表模型现状与问题关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型,表为二维数据结构,本身缺乏关系的表达能力,关系的运算通过Join关联运算来处理。表模型简单且易于理解,在关系模型中被广
  • 2023-08-11谷歌云 | BigQuery 现在支持用于查询开放表格式的清单文件
    【本文由CloudAce整理发布。CloudAce是谷歌云全球战略合作伙伴,拥有300多名工程师,也是谷歌最高级别合作伙伴,多次获得GoogleCloud合作伙伴奖。作为谷歌托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训服务。】开放表格式依赖嵌入式元数据来提供事务一致的
  • 2023-07-29在 Amazon EMR 上构建实时数据湖
    前言当公司业务发展遇到瓶颈时,业务分析师以及决策者们总会希望通过交叉分析大量的业务数据和用户行为数据,以解答“为什么利润会下滑?”“为什么库存周转变慢了?”等问题,最终整点“干货”出来从而促进业务发展。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有
  • 2023-07-16加速LakeHouse ACID Upsert的新写时复制方案
    概述随着存储表格式ApacheHudi、ApacheIceberg和DeltaLake的发展,越来越多的公司正在这些格式的基础上构建其Lakehouse,以用于许多用例,例如增量摄取。但当数据量增加时,更新插入的速度有时仍然是一个问题。在存储表中,使用ApacheParquet作为主要文件格式。在本文中我们