HDFS存储格式及压缩算法

时间：2023-01-05 09:34:19浏览次数：44

标签：HDFS 存储压缩算法压缩 Hadoop gzip 格式压缩率

存储格式

1 SequenceFile

以二进制键值对的形式存储数据,支持三种记录存储方式。.

无压缩: io效率较差，相比压缩，不压缩的情况下没有什么优势。

记录级压缩:对每条记录都压缩，这种压缩效率比较一般。

块级压缩: 这里的块不同于HDFS中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一个块。

2 Avro

将数据定义和数据一起存储在一条消息中，其中数据定义以JSON格式存储，数据以二

进制格式存储。Avro 标记用于将大型数据集分割成适合MapReduce处理的子集。

3 RCFile

以列格式保存每个行组数据。它不是存储第一行然后是第二行，而是存储所有行上的第

1列，然后是所行上的第2列，以此类推。

4 Parquet

是Hadoop的一种列存储格式，提供了高效的编码和压缩方案。

压缩算法

1 Gzip 压缩

优点:压缩率比较高，而且压缩/解压速度也比较快; Hadoop 本身支持，在应用中处

理gzip格式的文件就和直接处理文本-一样，大部分linux 系统都自带gzip 命令，使用方便.

缺点:不支持split

应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip

压缩格式：例如说一天或者一个小时的日志压缩成-一个gzip文件，运行MapReduce程序

的时候通过多个gzip 文件达到并发。Hive 程序，streaming 程序，和Java 写的

MapReduce程序完全和文本处理一样，压缩之后原来的程序不需要做任何修改。

2 Bzip2 压缩

优点:支持split; 具有很高的压缩率，比gzip 压缩率都高; Hadoop 本身支持，但不

支持native; 在linux 系统下自带bzip2 命令，使用方便。

缺点:压缩/解压速度慢;不支持native.

应用场景:适合对速度要求不高，但需要较高的压缩率的时候，可以作为MapReduce

作业的输出格式:或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空

间并且以后数据用得比较少的情况:或者对单个很大的文本文件想压缩减少存储空间，同时

又需要支持split, 而且兼容之前的应用程序(即应用程序不需要修改)的情况。

native 是Hadoop的本地库参，考https://zhuanlan.zhihu.com/p/340835557）

3 Lzo压缩

优点:压缩/解压速度也比较快，合理的压缩率:支持split, 是Hadoop 中最流行的压缩格式，可以在linux 系统下安装lzop 命令，使用方便。

缺点:压缩率比gzip要低一些；Hadoop 本身不支持，需要安装;在应用中对lzo 格式的文件需要做一些特殊处理(为了支持split 需要建索引，还需要指定inputformat 为lzo格式)

应用场景: 一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个

4 Snappy 压缩

优点:高速压缩速度和合理的压缩率。

缺点:不支持split; 压缩率比gzip 要低; Hadoop 本身不支持，需要安装;

应用场景:当MapReduce 作业的Map 输出的数据比较大的时候，作为Map到

Reduce的中间数据的压缩格式:或者作为一个MapReduce作业的输出和另外一个

MapReduce作业的输入。

原文链接：https://blog.csdn.net/TYM112/article/details/118409786

标签：HDFS,存储,压缩算法,压缩,Hadoop,gzip,格式,压缩率
From： https://www.cnblogs.com/meanshift/p/17025780.html

EBS:从订单明细生成价目表DATALOAD格式
--用订单明细行生成价目表，DATALOAD格式，以便于导入价目表明细行。SELECT--DISTINCTOOH.ORDER_NUMBER,--OOL.LINE_NUMBER,'项目'AS"产品上下......
图片格式转换之ImageMagick
项目中需要实现一些图片文件到TIFF文件的转换，去网上下载了一些第三方软件。好的软件需要收费，免费的存在各种问题。自己动手，丰衣足食！众里寻他千百度，蓦然回首，那人就是Imag......
js 日期格式化
1.给Date对象添加format方法,date类型的对象即可使用格式化方法（注意需要引入main.js中）Date.prototype.format=function(fmt){leto={"M+":this.getMonth(......
2023年实时最新中国省市区县街道级geoJSON格式地图数据Echarts地图数据联动数据下载
发现个可以免费下载全国 geojson 数据的网站，推荐一下。支持全国、省级、市级、区/县级、街道/乡镇级以及各级的联动数据geojson数据下载地址：https://geojson.hxkj.vip......
hadoop fs:du统计hdfs文件（目录下文件）大小的用法
[root@node218~]#hadoopfs-du-h/inventory5g8.0G8.0G/inventory5g/inventory.dat261.2M261.2M/inventory5g/inventory_1_30.dat261.6M261......
CSV：简单格式下隐藏的那些坑
摘要：本文将盘点处理CSV数据时我遇到的一些坑。本文分享自华为云社区《CSV—简单格式下隐藏的那些坑》，作者：aKi。前言CSV（Comma-SeparatedValues），是一种通用的、相对简单的......
Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
更多代码请见：https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本：alluxio-1.3.0（tachyon），spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果......
Spark生态之Alluxio学习24--分别读取HDFS和Alluxio的数据进行line count比较分析
更多代码请见：https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本：alluxio-1.3.0（tachyon），spark-1.5.2,hadoop-2.6.01.解释测量alluxio和hdfs哪个速......
datetime 格式化日期的符号
%y两位数的年份表示（00-99）%Y四位数的年份表示（000-9999）%m月份（01-12）%d月内中的一天（0-31）%H24小时制小时数（0-23）%I12小时制小时数（01-12） %M分钟数（00=59）%S秒（00-59） %a本地......
2-返回数据的时间格式化
2-返回数据的时间格式化在我们返回数据的时候，我们返回的Json时间是很长的一串，很明显这对前端并不友好所以我们要对这个时间进行格式化处理{"date":"2022-01-13T23......