首页 > 其他分享 >hudi数据湖

hudi数据湖

时间:2024-01-05 23:44:27浏览次数:34  
标签:Hudi 删除 更新 增量 hudi 漫游 数据

字节跳动基于 Hudi 的实时数据湖平台

https://developer.volcengine.com/articles/7220345269954003004

 

数仓实时化改造:Hudi on Flink 在顺丰的实践应用

https://www.logclub.com/articleInfo/NDE1NTk=

 

 

Hudi 的核心优势主要分为两部分:

  • 首先,Hudi 提供了一个在 Hadoop 中更新删除的解决方案,所以它的核心在于能够增量更新,同时增量删除。增量更新的好处是国内与国际现在对隐私数据的保护要求比较高,比如在 Hive 中清理删除某一个用户的数据是比较困难的,相当于重新清洗一遍数据。使用 Hudi 可以根据主键快速抓取,并将其删除掉。

  • 另外,时间漫游。之前我们有很多应用需要做准实时计算。如果要找出半个小时内的增量到底是什么,变化点在哪,必须要把一天的数据全捞出来,过滤一遍才能找出来。Hudi 提供时间漫游能力,只需要类似 SQL 的语法就能快速地把全部增量捞出来,然后后台应用使用时,就能够直接根据里面的数据做业务的更新,这是 Hudi 时间漫游里最重要的能力。

 

标签:Hudi,删除,更新,增量,hudi,漫游,数据
From: https://www.cnblogs.com/guoyu1/p/17948323

相关文章

  • python-数据解析-bs4介绍
    一、数据解析方式-bs41、 爬虫数据的解析常用方式有三种: 1、正则表达式2、bs43、xpath解析2、本次主要学习bs4,首先要先准备好环境,即要安装使用beautifulSoup,这里已经安装好了bs4模块,如下:pipinstallbs4和pipinstalllxml 3、通过一个实例理解bs......
  • 在MFC中使用CArchive进行串行化数据
    使用CArchive进行数据串行化非常的方便。CArchive持有一个CFile对象,通过此对象进行读写,那么所有基于CFile的子类,都可以使用CArchive来进行串行化。示例:CFilefile(_T("1.txt"),CFile::modeReadWrite);CArchivear(&file,CArchive::load);此时CArchive对象就是处于读取的......
  • 数据仓库、数据湖、湖仓一体的区别?
    https://www.cnblogs.com/miketwais/articles/data_lakehouse.html 数仓:存储结构化数据,基于指标需求,面向主题组织数据,协助经营者进行决策;数据湖:存储结构化,半结构化,非结构化,二进制数据,强调的是对于原始数据的存储,保留数据的完整性。随用随取。存储成本更低;湖仓一体:将数仓构建......
  • mysql数据库(2)
    一、B树、B+树官方文档里说到,B树根节点指向叶子节点,但是人们忘了叶子节点可以互相指向,于是B+。createtablet1(aintprimarykey,bint,cint,dint,evarchar(20))engine=InnoDB;操作系统页单位4KB,mysql页单位16KB(逻辑单位,逻辑上一次取这么大)。如果按行读取时,相当于......
  • Python Pandas 数据清洗
    ​ 1、处理缺失数据处理缺失数据是数据清洗过程的一个重要部分。缺失数据可以以多种方式出现,最常见的是作为NaN(NotaNumber)。处理缺失数据涉及使用 isna() 或 isnull() 检测缺失值,fillna() 填充缺失值,dropna() 删除包含缺失值的行或列,以及 interpolate() 对缺失值进......
  • 09_数据-拓展知识
    数据拓展知识整数拓展进制/二进制:0b/十进制/八进制:0/十六进制:0x浮点数拓展银行业务用BigDecimal(数学工具类)表示最好完全避免使用浮点数进行比较!!!(重要)用==输出两个是否相等字符拓展所有字符本质还是数字(int)字符:强制转换为编码编码:Unicode表:(97=a65=......
  • 【Python&RS】栅格数据/图片位深度(bit)转换
    ​    关于栅格数据/图片的位深度(eg.8bit、16bit、32bit)转换之前我就发过一篇文章,【Python&RS】基于GDAL栅格数据/图片位深度(bit)转换。但是最近在使用的时候发现好像效果不行,有时候转换不成功,所以自己又研究了一下原理重新写了一份代码。今天就和大家分享一下如何使用Py......
  • C语言学习随笔-04 数据类型
    C中的数据类型:在C语言中,数据类型指的是用于声明不同类型的变量或函数的一个广泛的系统。变量的类型决定了变量存储占用的空间,以及如何解释存储的位模式。常用的四中基本数据类型:int、char、float、double    ▶基本类型:它们是算术类型,如int、char、float、double。 ......
  • 演讲实录|博睿数据副总裁杨雪松:可观测性建设之路(上)
    企业在升级替换国产化软硬件过程中面临着诸多挑战。如国产化软硬件的升级替换的核心点和难点,不同行业需求的共性与差异,散装数据库全栈基础软硬件与数据库一体机有何差异?企业在选型时需关注哪些因素?如何实现平滑稳定的升级替换?针对上述问题,ITPUB特别策划了“国产化软硬件升级替换之......
  • 征程万里,行则将至|博睿数据2023年度盘点
    征程万里,风势正劲,重任千钧,再踏新程。2023年,面对全球经济复苏乏力的困境,博睿数据洞察到了中国经济所展现出的强大韧性和巨大潜力,以及人工智能在数智时代带来的新生活力。这一年,我们坚守初心,不断推动一体化智能可观测平台Boree ONE的迭代升级,积极参与企业的数字化进程,见证了众多客户......