大数据文件存储格式

时间：2022-11-24 23:23:39浏览次数：70

标签：存储数据文件列式 SequenceFile Parquet 格式 ORC

数据仓库能支持多种文件格式，如hive可以支持textfile，RCFile，SequenceFile，ORC，Parquet格式等，我们使用最多的是textfile，SequenceFile，ORC以及parquet格式。

TextFile
TextFile的特点就是行存储，是hive默认存储格式，可以使用任意分隔符，不做压缩，所以磁盘开销大，但可以结合snappy，gzip等使用，此外TextFile不支持文件切割
SequenceFile
SequenceFile是一种二进制存储结构，直接将<Key,Value>键值对序列化到文件中，所以适合处理小文件，将小文件合并成一个大的SequenceFile文件

上图可以看出，SequenceFile由header和Record组成，提供两种压缩方式，一种是基于Record的压缩，另一种是块压缩
ORC
ORC中文是优化的列式存储，列式存储的好处就是可以按字段进行分析，做过数据挖掘或者使用过pandas的能体会到通常我们只需要分析一个或者某几个字段的数据，不是全表数据，列式存储方便这样查询

ORC格式的文件由多个Stripe组成,Stripe由多个Row的数据组成（知道这个就行了），其余的像Index Data存储数据的统计信息和索引信息，Stripe Footer是保存文件的文件目录。
ORC的结构很方便过滤掉不需要的数据，依靠三种级别的索引，第一是文件索引，第二是Stripe索引,第三十Row索引
Parquet
Parquet也是列式存储，也是适合大数据场景下的OLAP

Parquet格式由一个个行组构成，一个行组可以由多个列块组成（每一列都是一个列块），每个列快由可以分为不同的页，我们只需要读取自己感兴趣的页就可以，这也是与ORC不同的地方，在列的颗粒度下还细分了页的颗粒度，这也是Parquet支持读取嵌套结构的原因。

此外还有一些其他的存储格式，如Avro，Arrow，CarbonData等

标签：存储,数据文件,列式,SequenceFile,Parquet,格式,ORC
From： https://www.cnblogs.com/spark-cc/p/16923828.html

第9节-MySQL存储过程
9.1、存储过程概述1、存储过程的定义定义一段完成特定功能的SQL语句集，经编译后存储在数据库中，用户可以通过指定的存储过程名称并给出参数来执行它，这样的语句集称为存......
第11节-MySQL存储函数
11.1、函数介绍1、函数是存储在服务器端的SQL语句的集合2、函数分为MySQL提供的内部函数和用户自定义医数两大类.MySQL提供了很丰富的内部函数·数学函数·字符串医......
广告业务存储神器：华为云GaussDB(for Redis)
摘要：高性能、大容量、低成本、强稳定性，广告业务需要的Ta都有一、从需求场景说起，什么是RTA广告业务？在互联网时代，媒体平台逐渐成为广告业务的主体，而作为广告主的企业往往......
第九章运行存储分配常考大题总结（二）一些题
题一解题思路：先画出整体的活动树 (1)题干指出当前执行过程为quicksort(2,3)，意为q(5,9)一侧不需要考虑，因为q(1,3)先执行完才能执行q(5,9)，本题轮不到q(5,9)main()-......
postgresql存储过程循环加判断（避免else的影响）
目的：要想组装成这样的jsoncountData:[{"name":"区县1"，“typeValue”:[{"name":"单位用地税收(万元/亩)"，“value”:"90"},{"name":......
MySQL数据库——字符编码、配置文件、存储引擎、数据类型、约束条件
MySQL数据库——字符编码、配置文件、存储引擎、数据类型、约束条件一、字符编码与配置文件1、查看MySQL相关信息\s查看相关信息当前用户、版本、编码、端口号 MySQ......
java+pgsql实现保存图片到数据库，以及读取数据库存储的图片；java将图片保存到本地、保存
java将图片保存到本地；pom.xml<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.4.7</version></dependency><de......
使用Mac版Leawo Prof. Media转换格式失败并出错，该怎么办？
作为一款强大到爆表的音视频格式转换器，LeawoProf.Media拥有非常好的兼容性，支持将视频刻录到DVD和蓝光内容有超过40个型号光盘菜单和模板预置的，创建多达6种不同的3D效果可......
Kafka 日志存储及其清除策略
Kafka日志存储及其清除策略日志存储结构Kafka存储结构图：kafka中消息是以主题topic为基本单位进行归类的，这里的topic是逻辑上的概念，实际上在磁盘存储是根据分区存......
分布式存储之 etcd 的集群管理
在分布式文件存储中，我们通常会面临集群选主，配置共享和节点状态监控的问题。通过etcd（基于Raft协议)）可以实现超大规模集群的管理，以及多节点的服务可靠性。今天，我们就聊聊e......

大数据文件存储格式

相关文章

赞助商

阅读排行