Hadoop 数据压缩

时间：2023-12-16 18:55:31浏览次数：32

标签：bzip2 MB 压缩 Hadoop 文本处理 GB 数据压缩

1.概述

1.好处 & 坏处

优点：减少磁盘IO、减少磁盘存储空间
缺点：增加CPU开销

2.压缩的原则

运算密集型的Job，少用压缩
IO密集型的Job，多用压缩

2.MR 支持的压缩编码

1.压缩算法对比介绍

压缩格式	Hadoop自带?	算法	文件扩展名	是否可切片	换成压缩格式后,原来的程序是否需要修改
DEFLATE	是,直接使用	DEFLATE	.deflate	否	和文本处理一样,不需要修改
Gzip	是,直接使用	DEFLATE	.gz	否	和文本处理一样,不需要修改
bzip2	是,直接使用	bzip2	.bz2	是	和文本处理一样,不需要修改
LZ0	否,需要安装	LZ0	.lzo	是	需要建索引,还需要指定输入格式
Snappy	是,直接使用(3.x)	Snappy	.snappy	否	和文本处理一样,不需要修改

2.压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/S	58MB/S
bzip2	8.3GB	1.1GB	2.4MB/S	9.5MB/S
LZO	8.3GB	2.9GB	49.3MB/S	74.6MB/S

3.压缩方式选择

标签：bzip2,MB,压缩,Hadoop,文本处理,GB,数据压缩
From： https://www.cnblogs.com/fanqisoft/p/17905174.html

Hadoop快速入门
Hadoop快速入门一、大数据思维分而治之所谓“分而治之”，就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分，然后逐个分别找出各部分的解，再把各部分的解组成整个问题的解。传统的计算都是基于内存去完成的，但是内存是有限的，数据量太大，导致无法在较短......
java: 通过URL读取hadoop HDFS
packagetju;importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;importorg.apache.hadoop.io.IOUtils;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.net.URL;importjava.net.URLStreamHandlerFactory;publicclassReadF......
hadoop:通过Configuration读取hdfs
packagetju;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io......
Hadoop 数据类型及序列化
1.Hadoop数据类型Java类型HadoopWritable类型BooleanBooleanWritableWritableWritableWritableWritableWritableWritableWritableWritableWritable2.为何Hadoop有自身序列化与反序列化Java自身的序列化除去本身Bean的数据......
Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析
NameNode被格式化之后，将在NameNode目录下产生一些文件1.Fsimage文件Fsimage文件是HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息1.查看Fsimage文件1.oiv命令hdfsoiv-p文件类型-i镜像文件-o转换后文件的输出路径hdfs......
Hadoop 配置的优先级
从低到高1.默认配置默认文件文件存放在Hadoop的jar包中的位置core-default.xmlhadoop-common-3.3.6.jar/core-default.xmlhdfs-default.xmlhadoop-hdfs-3.3.6.jar/hdfs-default.xmlyarn-default.xmlhadoop-yarn-common-3.3.6.jar/yarn-default.xmlmapred-d......
Java实现对Hadoop HDFS的API操作
1.配置Hadoop的Windows客户端Hadoop配置Windows客户端2.新建Maven项目[略]3.添加依赖<dependency><groupId>org.apache.hadoop</groupId>......
Hadoop 配置Windows 客户端
1.根据Hadoop版本下载Windows依赖，并放置到非中文目录下https://github.com/cdarlint/winutils2.配置环境变量HADOOP_HOME->放置的目录地址PATH->追加%HADOOP_HOME%\bin3.测试环境双击winutils.exe，如出现运行错误，则需要安装相关的运行库解决。......
Hadoop HDFS 文件块大小
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M.建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M，SSD则配置为256M。HDFS的块设置太小，会增加寻址时间，程序一直在找块的开......
基于Docker容器搭建hadoop完全分布式集群环境
简介物理机：windows10宿主机：Centos7虚拟机，需要安装Docker服务hadoop集群节点：3个centos7的容器，hadoop1、hadoop2、hadoop3组件：容器镜像：Centos7DockerCE24.0.7JDK1.8.0_181Hadoop3.1.31.新建虚拟机安装CentOS72.安装Docker2.1安装docker服务yum-yinstalldocke......

Hadoop 数据压缩

1.概述

1.好处 & 坏处

2.压缩的原则

2.MR 支持的压缩编码

1.压缩算法对比介绍

2.压缩性能的比较

3.压缩方式选择

相关文章

赞助商

阅读排行