首页 > 其他分享 >一口气学完Hudi——概述

一口气学完Hudi——概述

时间:2023-04-03 21:33:45浏览次数:32  
标签:存储 Hudi 开发人员 数据 支持 概述 增量 学完

image.png

简介

Apache Hudi (Hadoop Data Unified Storage System) 是一个用于存储和处理大规模数据集的开源分布式文件系统。它最初是由 Apache Hadoop 项目开发的,并已成为 Hadoop 生态系统的重要组成部分之一。

Hudi 的特点在于它能够统一存储和管理不同类型的数据,例如文本、图像、音频和视频等。这使得开发人员能够更轻松地处理和分析大规模数据集,因为 Hudi 能够自动处理数据类型转换和数据压缩等任务。

Hudi 还提供了高效的数据读取和写入能力,特别是在处理大量数据时。它采用了一种称为“主节点”的中心化控制器,以确保数据访问的安全性和可靠性。此外,Hudi 还支持多种数据分析和机器学习算法,例如聚类、分类、回归和神经网络等。

Hudi特性

  1. 支持多种数据类型:Hudi 支持存储和管理不同类型的数据,包括文本、图像、音频、视频等。这使得开发人员能够更轻松地处理和分析大规模数据集。
  2. 高效数据读取和写入能力:Hudi 采用了一种称为“主节点”的中心化控制器,以确保数据访问的安全性和可靠性。此外,Hudi 还提供了高效的数据读取和写入能力,使得开发人员能够更轻松地处理和分析大规模数据集。
  3. 支持数据分析和机器学习:Hudi 支持多种数据分析和机器学习算法,例如聚类、分类、回归和神经网络等。这使得开发人员能够更好地探索和利用数据。
  4. 支持数据压缩和格式转换:Hudi 支持对数据进行压缩和格式转换,以减少数据的传输和存储大小。这使得开发人员能够更轻松地处理和分析大规模数据集。
  5. 高可用性和容错性:Hudi 采用了一种称为“主节点”的中心化控制器,以确保数据访问的安全性和可靠性。此外,Hudi 还提供了高可用性和容错性,使得开发人员能够更轻松地处理和分析大规模数据集。
  6. 易于使用和部署:Hudi 具有易于使用和部署的特性,使得开发人员能够更轻松地使用和管理 Hudi。此外,Hudi 还提供了多种编程语言和框架的支持,例如 Java、Python 和 Scala 等。

使用场景

  1. 近实时写入: Hudi 可以通过减少碎片化工具的使用,例如 Apache Kafka、Apache Cassandra 等,来实现近实时写入。同时,Hudi 还支持 CDC(Data Collection Engine) 增量导入 RDBMS 数据,减少数据迁移的工作量。此外,Hudi 还限制小文件的大小和数量,以减少数据写入的延迟和磁盘占用。
  2. 近实时分析: Hudi 可以提供分钟级别的时效性,支撑更高效的查询,相对于秒级存储 (如 Druid、OpenTSDB) 更为轻量。此外,Hudi 还支持区分 arrivetime 和 event time 处理延迟数据,以更好地支持实时数据处理和事件驱动的应用程序。
  3. 增量 pipeline: Hudi 可以通过更短的调度 interval 减少端到端延迟 (小时->分钟),实现增量数据处理。这可以替代部分 Kafka 的场景,例如数据导出到在线服务存储 (如 ES),以实现数据的实时处理和增量存储。
  4. 增量导出: Hudi 支持将数据导出到在线服务存储 (如 ES),以减少数据迁移的工作量。此外,Hudi 还支持增量导出,以更好地支持数据实时处理和增量存储。这可以替代部分 Kafka 的场景,例如数据导出到在线服务存储,以实现数据的实时处理和增量存储。

标签:存储,Hudi,开发人员,数据,支持,概述,增量,学完
From: https://blog.51cto.com/hiszm/6167566

相关文章

  • 第1章 云计算概述
    第1章云计算概述1.1虚拟化技术简史1.1.2X86平台虚拟化历史VMwareWorkstation主要是在Windows上创建虚拟机,虚拟机可使用Linux或Windows系统。此外,通过虚拟机快照方式,可快速完成软件的回归测试、系统备份恢复以及POC演示等活动;Xen属于半虚拟化技术,需要对部署在虚拟机上的......
  • 【深入浅出 Yarn 架构与实现】6-1 NodeManager 功能概述
    本节开始将对Yarn中的NodeManager服务进行剖析。NodeManager需要在每个计算节点上运行,与ResourceManager和ApplicationMaster进行交互。管理节点的计算资源以及调度容器。后续将对NM的功能职责、状态机、容器生命周期和资源隔离等方面进行讲解。本篇将从整体上对NM......
  • Spring AOP官方文档学习笔记(一)之AOP概述
    1.AOP简介(1)Spring的关键组件之一就是AOP框架,它是对SpringIoC的补充(这意味着如果我们的IOC容器不需要AOP的话就不用引入AOP),此外,AOP亦是对OOP的补充,OOP的关注点在于类,而AOP的关注点在于切面,它可以将分散在不同类不同方法中重复的代码逻辑抽取出来,称之为通知(Advice),然后在运行......
  • 计算机网络概述
    概述internet:互连网,任意通信协议Internet:因特网,用TCP/IP协议因特网的三个发展阶段:ARPANET阶段(第一个分组交换网ARPANET)三级结构因特网(主干网,地区网,校......
  • MYsql数据库的概述(韩顺平)
    Mysql的安装命令行连接到MySqlMysql是一个服务在连接mysql之前必须保证mysql是运行的状态连接mysql中-uroot表示的是用户名连接mysql的注意事项Navicat的......
  • 第一篇 计算机网络基础 - 概述 - 【 发展历史 + 网络层次结构 + Tcp协议簇 + 网络传输
    计算机网络概述1、什么是计算机网络计算机网络主要由一些通用的、可编程的硬件互联而成,通过这些硬件,可以传送不同类型的数据,并且可以支持广泛和日益增长的应用......
  • 第一篇 html - 基础 - 【 发展史 + 概述 】
    html发展史1、HTML1.0(HTML/HTML+)超文本标记语言(第一版)——在1993年6月发为互联网工程工作小组(IETF)工作草案发布(并非标准)2、HTML2.0——1995年11月作为RFC......
  • MongoDB GridFS最佳应用概述
    《MongoDBGridFS最佳应用概述》作者:chszs,转载需注明。GridFS是MongoDB数据库之上的一个简单文件系统抽象。如果你熟悉AmazonS3的话,那么GridFS与之相似。为什么像MongoDB这......
  • 可搜索加密(Searchable Encryption)机制概述
    引言[1]:可搜索加密(searchableencryption,SE)是近年来发展的一种支持用户在密文上进行关键字查找的密码学原语,能够为用户节省大量的网络和计算开销,并充分利用云端服务......
  • 元宇宙概述
    1、什么是元宇宙近来,“元宇宙”成为热门话题,越来越频繁地出现在人们的视野中。大家都在谈论它,但似乎还没有一个被所有人认同的定义。元宇宙究竟是什么?未来它会对我们的工作......