首页 > 其他分享 >数据湖Iceberg-存储结构(2)

数据湖Iceberg-存储结构(2)

时间:2023-05-06 15:32:19浏览次数:50  
标签:files 存储 Iceberg 数据文件 Manifest file 结构



文章目录

  • 存储结构
  • 数据文件 data files
  • 表快照 Snapshot
  • 清单列表 Manifest list
  • 清单文件 Manifest file



数据湖Iceberg-简介(1)


数据湖Iceberg-存储结构(2)


数据湖Iceberg-Hive集成Iceberg(3)


数据湖Iceberg-SparkSQL集成(4)


数据湖Iceberg-FlinkSQL集成(5)


数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)


数据湖Iceberg-Flink DataFrame集成(7)

存储结构

数据湖Iceberg-存储结构(2)_iceberg

数据湖Iceberg-存储结构(2)_数据文件_02

数据文件 data files

数据文件是Apache Iceberg表真实存储数据的文件,一般是在表的数据存储目录的data目录下,如果我们的文件格式选择的是parquet,那么文件是以“.parquet”结尾。

例如:00000-0-atguigu_20230203160458_22ee74c9-643f-4b27-8fc1-9cbd5f64dad4-job_1675409881387_0007-00001.parquet 就是一个数据文件。

Iceberg每次更新会产生多个数据文件(data files)。

表快照 Snapshot

快照代表一张表在某个时刻的状态。每个快照里面会列出表在某个时刻的所有 data files 列表。data files是存储在不同的manifest files里面,manifest files是存储在一个Manifest list文件里面,而一个Manifest list文件代表一个快照。

清单列表 Manifest list

manifest list是一个元数据文件,它列出构建表快照(Snapshot)的清单(Manifest file)。这个元数据文件中存储的是Manifest file列表,每个Manifest file占据一行。每行中存储了Manifest file的路径、其存储的数据文件(data files)的分区范围,增加了几个数文件、删除了几个数据文件等信息,这些信息可以用来在查询时提供过滤,加快速度。

例如:snap-6746266566064388720-1-52f2f477-2585-4e69-be42-bbad9a46ed17.avro就是一个Manifest List文件。

清单文件 Manifest file

Manifest file也是一个元数据文件,它列出组成快照(snapshot)的数据文件(data files)的列表信息。每行都是每个数据文件的详细描述,包括数据文件的状态、文件路径、分区信息、列级别的统计信息(比如每列的最大最小值、空值数等)、文件的大小以及文件里面数据行数等信息。其中列级别的统计信息可以在扫描表数据时过滤掉不必要的文件。

Manifest file是以avro格式进行存储的,以“.avro”后缀结尾,例如:52f2f477-2585-4e69-be42-bbad9a46ed17-m0.avro。


标签:files,存储,Iceberg,数据文件,Manifest,file,结构
From: https://blog.51cto.com/u_13721902/6250224

相关文章

  • 数据湖Iceberg-简介(1)
    文章目录Iceberg简介概述特性数据存储、计算引擎插件化实时流批一体数据表演化(TableEvolution)模式演化(SchemaEvolution)分区演化(PartitionEvolution)列顺序演化(SortOrderEvolution)隐藏分区(HiddenPartition)镜像数据查询(TimeTravel)支持事务(ACID)基于乐观锁的并发支持文件级数据......
  • 数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)
    数据湖Iceberg-简介(1)数据湖Iceberg-存储结构(2)数据湖Iceberg-Hive集成Iceberg(3)数据湖Iceberg-SparkSQL集成(4)数据湖Iceberg-FlinkSQL集成(5)数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)数据湖Iceberg-FlinkDataFrame集成(7)数据湖Iceberg-FlinkSQL-kafka类型表......
  • 全国 地理位置-省份-市结构关系 sql脚本
    /******Object:Table[dbo].[ProvinceCity]ScriptDate:04/22/201715:27:27******/IFEXISTS(SELECT*FROMdbo.sysobjectsWHEREid=OBJECT_ID(N'[DF_ProvinceCity_CreatedUser]')ANDtype='D')BEGINALTERTABLE[dbo].[Provinc......
  • Linux 系统的目录结构
    Linux系统的目录结构如下:•/(根目录):整个文件系统的根目录。•/bin:存放着最重要的命令二进制文件。•/boot:存放启动Linux时使用的一些核心文件,如内核、引导程序等。•/dev:设备文件目录,存放设备节点文件。•/etc:系统配置文件目录。•/home:用户主目录所在地。......
  • 一统天下 flutter - 存储: shared_preferences - 用于操作 android 的 SharedPreferen
    源码https://github.com/webabcd/flutter_demo作者webabcd一统天下flutter-存储:shared_preferences-用于操作android的SharedPreferences,ios的NSUserDefaults,web的LocalStorage示例如下:lib\storage\shared_preferences.dart/**shared_preferences......
  • 一统天下 flutter - 存储: path_provider - 用于获取不同平台的本地存储的路径
    源码https://github.com/webabcd/flutter_demo作者webabcd一统天下flutter-存储:path_provider-用于获取不同平台的本地存储的路径示例如下:lib\storage\path_provider.dart/**path_provider-用于获取不同平台的本地存储的路径**在pubspec.yaml中做如......
  • 玩转云端 | 解密!业内首款存储资源盘活系统如何炼成?
     2023年4月26日-30日,第六届数字中国建设峰会·云生态大会在福州举办。会上展示的一款创新性存储产品格外亮眼,那就是中国电信天翼云率先发布的,国内首款存储资源盘活系统HBlock。 HBlock是纯软件全用户态的存储控制器,可以把不同配置的服务器与现网服务器中闲置的存储空间全部......
  • 第九节(结构、联合typedef)
    在C语言中,通常通过一种称为结构的数据构造体来简化程序设计任务。结构是程序员根据程序设计需求设计的一种数据存储类型。本次将介绍以下内容:●什么是简单结构和复杂结构●如何声明并定义结构●如何访问结构中的数据●如何创建包含数组的结构和包含结构的数组●如何在结构中声明指......
  • 用最低成本实现高性能写入、查询、存储,揭秘 TDengine 技术实现逻辑
    从《写入性能:TDengine最高达到InfluxDB的10.3倍,TimeScaleDB的6.74倍》、《查询性能:TDengine最高达到了InfluxDB的37倍、TimescaleDB的28.6倍》两篇文章中,我们发现,TDengine(TimeSeriesDatabase)不仅在写入和查询性能上超越了InfluxDB和TimescaleDB,在数据处理过......
  • 海量数据监控如何选择存储方案? 看转转、得物这些企业是怎么做的
    对于互联网业务而言,为保证服务的稳定运行,就要时刻关注服务器、服务调用、网络状况等各项指标,单是监控数据就存在非常大的量级。为了应对这种挑战,结合监控数据的特点,许多企业开始选择符合业务需求的时序数据库(TimeSeriesDatabase),以便更好地支持运维监控。转转xTDengine“使用......