首页 > 其他分享 >hudi学习

hudi学习

时间:2023-05-23 20:46:41浏览次数:41  
标签:Hudi 数据 lake 学习 table hudi data your

1.背景

想要对自己的各种数据(非结构化)进行统一管理,突然想到数据湖,看看是否符合我的需求。

2.Hudi简介

2.1 hudi的特性

mutability support for all data lake workoads
Quickly update & delete data with Hudi's fast, pluggable indexing. This includes streaming workloads, with full support for out-of-order data, bursty traffic & data deduplication.

使用Hudi的快速可插拔索引快速更新和删除数据。这包括流式工作负载,完全支持无序数据、突发流量和重复数据消除。

Improved efficiency by incrementally processing new data
Replace old-school batch pipelines with incremental streaming on your data lake.Experience faster ingestion and lower processing times for analytical workloads

用数据湖上的增量流取代老式的批处理管道。体验更快的接收和更低的分析工作负载处理时间.

ACID Transactionnal guarantees to your data lake
Bring transactional guarantees to your data lake, with consistent, atomic writes and concurrency controls tailored for longer-running lake transactions.

ACID对数据湖的事务性保证
为您的数据湖提供事务性保证,为长期运行的湖事务量身定制一致的原子写入和并发控制。

Unlock historical data with time travel
Query historical data with the ability to roll back to a table version; debug data versions to understand what changed over time; audit data changes by viewing the commit history.

通过时间旅行解锁历史数据
查询历史数据,能够回滚到表格版本;调试数据版本以了解随时间变化的内容;通过查看提交历史记录来审核数据更改。

Interoperable multi-cloud ecosystem support
Extensive ecosystem support with plug-and-play options for popullar data sources & query engines. Build future-proof architectures interoperable with your vendor of choice.

可互操作的多云生态系统支持
广泛的生态系统支持,为大众数据源和查询引擎提供即插即用选项。构建经得起未来考验的体系结构,可与您选择的供应商进行互操作。

Comprehensive table services for high-performance analytics
Fully automated table services that continuously schedule & orchestrate clustering, compaction, cleaning, file sizeing & indexing to ensure tables area always ready.

用于高性能分析的全面表格服务
全自动的表服务,不断安排和协调集群、压缩、清理、文件大小和索引,以确保表区域始终准备就绪。

A rich platform to build your lakehouse faster
Effortlessly build your lakehouse with built-in tools for auto ingestion from services like Debezium and Kafka and auto catalog sync for easy discoverability & more.

一个丰富的平台,可以更快地建造你的湖屋
使用内置工具轻松构建您的lakehouse,用于从Debezium和Kafka等服务中自动获取信息,并自动同步目录以便于发现等等。

Query acceleration through multi-modal indexes
Experience faster write transactions on huge/wide tables & faster query performance with first-of-its kind multi-modal indexing subsystem.

通过多模式索引实现查询加速
使用第一个多模式索引子系统,在巨大/宽表上体验更快的写入事务和更快的查询性能。

Resilient Pipelines with schema evolution & enforcement
Easily change the current schema of a Hudi table to adapt to the data that is changing over time and ensure pipeline resilience by failing fast and avoiding data corruption.

具有模式演变和实施的弹性管道
轻松更改Hudi表的当前模式,以适应随时间变化的数据,并通过快速故障和避免数据损坏来确保管道弹性。

2.2

3.引用

标签:Hudi,数据,lake,学习,table,hudi,data,your
From: https://www.cnblogs.com/route/p/17422131.html

相关文章

  • MAUI Blazor学习7-实现登录跳转页面
    MAUIBlazor学习7-实现登录跳转页面 MAUIBlazor系列目录MAUIBlazor学习1-移动客户端Shell布局-SunnyTrudeau-博客园(cnblogs.com)MAUIBlazor学习2-创建移动客户端Razor页面-SunnyTrudeau-博客园(cnblogs.com)MAUIBlazor学习3-绘制ECharts图表-SunnyTrudeau......
  • 【安全学习之路】Day6
    ......
  • NumPy学习1
    NumPy是NumericalPython的缩写,它是一个由多维数组对象(ndarray)和处理这些数组的函数(function)集合组成的库。使用NumPy库,可以对数组执行数学运算和相关逻辑运算。NumPy不仅作为Python的扩展包,它同样也是Python科学计算的基础包。NumPy使用需求随着数据科学(DataScience,简......
  • MySQL学习基础篇Day8
    5.7多表查询案例数据环境准备:createtablesalgrade(gradeint,losalint,hisalint)comment'薪资等级表';insertintosalgradevalues(1,0,3000);insertintosalgradevalues(2,3001,5000);insertintosalgradevalues(3,5001,8000);insertin......
  • UE4学习笔记:Windows系统下如何在C++项目里调用第三方动态库
    本随笔介绍在Windows系统下,由UE4引擎创建的C++项目里如何实现调用第三方动态库的方法。随笔作者还在学习阶段,对UE4引擎的使用和理解还不是非常透彻,难免会在随笔内容里出现技术上或书写上的问题,如果出现了类似的问题欢迎在评论区或者私信讨论。 目录设置第三方库头文件的路......
  • Python学习
    3-13字符串类型字符串类型:str   1.定义格式:       变量='内容'           打印一行       变量="内容"           打印一行       变量='''内容'''或者三引号           可以通过回车的方式换行,且打印出......
  • docker学习笔记:harbor私有仓库的搭建以及简单应用
    harbor私有仓库简介Docker容器应用的开发和运行离不开可靠的镜像管理,虽然Docker官方也提供了公共的镜像仓库,但是从安全和效率等方面考虑,部署私有环境内的Registry也是非常必要的。Harbor是由VMware公司开源的企业级的DockerRegistry管理项目,它包括权限管理(RBAC)、LDAP、日志审......
  • docker学习笔记:Prometheus+cAdvisor搭建容器监控
    Prometheus+cAdvisor容器监控简介Prometheus官网Prometheus-Monitoringsystem&timeseriesdatabaseCNCF云原生基金会的第二个项目cAdvisorcAdvisor(ContainerAdvisor)是Google开源的一个容器监控工具,可用于对容器资源的使用情况和性能进行监控。它以守护进程方式......
  • prometheus学习笔记-alertmanger告警配置
    以上是prometheus架构图,一个完整的监控流程是数据采集(exporter),采集到数据之后,做数据可视化(grafana),然后是监控告警部分。promethues的角色是数据的采集,存储,定制告警规则,数据的展示是grafna,告警则是借助alertmanger来实现。详细参考官方网站https://prometheus.io/docs/alertin......
  • redis学习随笔
    redis中的单个命令是原子操作。多条命令可以用multi,exec,discard等命令。1.multi开始执行事务,后面的命令都会放到队列里,暂不执行2.exec执行,会将队列的命令按顺序执行,失败不回滚3.discard取消事务。redis为什么事务失败不会滚:1.redis的命令错误一般是因为错误的语法,或者用错了......