首页 > 其他分享 >Hudi了解

Hudi了解

时间:2023-02-22 09:11:25浏览次数:34  
标签:文件 存储 Hudi 合并 如下 了解 数据

1.数据库引擎初识

    数据引擎大致包含数据结构、存储形式、数据关系、数据更新方式、高效增删改查、日志,围绕这几个方面进行相应权重处理,得到不一样的效果,内容可以整理为如下图:

 

 

2.Hudi了解

    Hudi提供两种读写方式,一种读时合并,另一种是写时复制,简单的说就是充分利用顺序写,然后加上相关索引等机制,实现快速的批量读写。

    Hudi表映射为文件结构如下:

 

  Hoodie文件通过索引机制会记录所有的主键跟文件ID的映射关系,从而提高高效的Upsert,针对写时复制就是当有数据写入时,快速找到数据所属文件块从中找到未修改的数据并复制到内存,然后和修改的数据合并到一起生成新的文件块,最后把新的文件块写回去,这种操作会导致写放大,但是适合分析工作,所以该模式适合读取密集型操作。cow的工作原理图如下:

 

  读时合并使用列式存储(parquet)+行式文件(arvo)存储数据,增量数据会按照arvo写入,每次查询需要查询出增量数据和base文件里面的数据最后合并输出。MOR的工作原理如下:

 以下是两种表类型的区别:

 

 

 

标签:文件,存储,Hudi,合并,如下,了解,数据
From: https://www.cnblogs.com/beststrive/p/17143148.html

相关文章

  • 九大步骤带你了解如何通过路由器保护内网安全!
    对于大多数企业来说,路由器已经成为目前最重要的安全设备之一,路由器在经过一定的设置后,几乎能够把所有坏分子阻挡在外,今天给大家分享保护网络安全的9个步骤,以下是详细的......
  • 算法刷题 Day 46 | ● 139.单词拆分 ● 关于多重背包,你该了解这些!● 背包问题总结篇!
    关于多重背包,力扣上没有相关的题目,所以今天大家的重点就是回顾一波自己做的背包题目吧。139.单词拆分视频讲解:https://www.bilibili.com/video/BV1pd4y147Rhhttp......
  • vue_day06 vue-cli基本使用了解
    目录今日内容详细一、vue-cli创建项目二、vue项目目录介绍三、es6导入导出语法1.App.vue,main.js,About.vue写了什么2.导入导出语法3.vue项目编写步骤四、小练习-登录功能1.A......
  • 了解算法
    为什么要学算法精准查找大量元素中的某个元素时,通过简单查找,花费的时间是N,通过二分法去查找所花费的时间是logN,两种查找方式的速度有很大差别。大O表示法大O表示法指的并......
  • 了解kubectl命令
    一、kubectl基本命令1、陈述式资源管理方法:1、kubernetes集群管理集群资源的唯一入口是通过相应的方法调用apiserver的接口2、kubectl是官方的CLI命令行工具,用于与ap......
  • redis11_Redis的主从复制【先了解待重新看教程】、redis的集群、redis 集群的优缺点
    Redis的主从复制文章目录文章目录​​Redis的主从复制文章目录​​​​redis的主从复制是什么?​​​​redis的集群​​​​集群的Jedis开发​​​​Redis集群的优缺点​​r......
  • 通过代码,了解ThreadLocal
    在看此代码时,先看​​http://www.iteye.com/topic/103804​​ 如果ThreadLocal.set()进去的东西本来就是多个线程共享的同一个对象,那么多个线程的ThreadLocal.get()取得的......
  • 了解一下 Android 10 中的 APEX
    https://www.wenjiangs.com/doc/79hyuxbwqmya了解一下Android10中的APEX发布于2022-03-2722:42:47 字数12935 浏览1179 评论0 收藏0  缘起Android......
  • 【MySQL-Explain了解查询语句执行计划】
    零、本文纲要一、执行计划二、Explain输出格式三、Explain作用&局限性tips:Ctrl+F定位到所需内容阅读吧。一、执行计划执行计划是数据库根据SQL语句和相关表的统计信......
  • SQL性能优化的47个小技巧,你了解多少?
    大家好,我是哪吒。1、先了解MySQL的执行过程了解了MySQL的执行过程,我们才知道如何进行sql优化。客户端发送一条查询语句到服务器;服务器先查询缓存,如果命中缓存,则立即返......