HDFS辅助工具-文件归档工具archive

1、背景：

HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存
如果存在大量的小文件，它们会吃掉NameNode节点的大量内存。如下所示，模拟小文件场景：

2、概述：

Hadoop Archive可以有效的处理以上问题，它可以把多个文件归档成为一个文件；
归档成一个文件后还可以透明的访问之前的每一个文件

3、创建档案

Usage: hadoop archive -archiveName name -p <parent> <src>* <dest>
- -archiveName 指要创建的存档的名称。扩展名应该是*.har
- -p 指定文件档案文件src的相对路径。

比如：-p /foo/bar a/b/c e/f/g，这里的/foo/bar是a/b/c与e/f/g的父路径，所以完整路径为/foo/bar/a/b/c与/foo/bar/e/f/g。

案例：存档一个目录 /smallfile下的所有文件：

hadoop archive -archiveName test.har -p /smallfile /outputdir

这样就会在/outputdir目录下创建一个名为test.har的存档文件。
注意：Archive归档是通过MapReduce程序完成的，需要启动YARN集群。

4、查看归档之前的样子

在查看har文件的时候，如果没有指定访问协议，默认使用的是hdfs:// ，此时所能看到的就是归档之后的样子
此外，Archive还提供了自己的har uri访问协议。如果用har uri去访问的话，索引、标识等文件就会隐藏起来，只显示创建档案之前的原文件：

Hadoop Archives的URI是：har://scheme-hostname:port/archivepath/fileinarchive

lscheme-hostname格式为 hdfs-域名:端口

5、提取档案

按顺序解压存档（串行）

hadoop fs -cp har:///outputdir/test.har/* /smallfile1

要并行解压存档，请使用DistCp,对应大的归档文件可以提高效率：

hadoop distcp har:///outputdir/test.har/* /smallfile2

6、使用注意事项

Hadoop archive是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。archive的扩展名是*.har；
创建archives本质是运行一个Map/Reduce任务，所以应该在Hadoop集群上运行创建档案的命令；
创建archive文件要消耗和原文件一样多的硬盘空间；
archive文件不支持压缩，尽管archive文件看起来像已经被压缩过；
archive文件一旦创建就无法改变，要修改的话，需要创建新的archive文件。事实上，一般不会再对存档后的文件进行修改，因为它们是定期存档的，比如每周或每日；
当创建archive时，源文件不会被更改或删除；

标签：创建,HDFS,文件,存档,辅助工具,归档,har,archive
From： https://www.cnblogs.com/luoluoange/p/18080251

HDFS辅助工具-跨集群复制数据工具distcp
HDFS辅助工具-跨集群复制数据工具distcp概述DistCp是Hadoop中的一种工具，在hadoop-tools工程下，作为独立子工程存在。定位用于数据迁移，定期在集群之间和集群内部备份数据在备份过程中，每次运行DistCP都称为一个备份周期。尽管性能相对较慢，但它的普及程度越来越高DistCp底层使用......
HDFS分布式文件系统
HDFS分布式文件系统一、HDFS概念HDFS介绍HDFS是HadoopDistributeFileSystem的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大......
HDFS的垃圾回收机制
HDFS的垃圾回收机制1．垃圾桶机制解析每一个文件系统都会有垃圾桶机制，便于将删除的数据回收到垃圾桶里面去，避免某些误操作删除一些重要文件。回收到垃圾桶里里面的资料数据，都可以进行恢复。2．垃圾桶机制配置HDFS的垃圾回收的默认配置属性为0，也就是说，如果不小心误删除了某样东西......
HDFS 安全模式
HDFS安全模式安全模式概述：安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求，是一种保护机制，用于保证集群中的数据块的安全性。在NameNode主节点启动时，HDFS首先进入安全模式，集群会开始检查数据块的完整性。DataNode在启动的......
试用AI做方案设计，通义灵码——一个博学但“健忘”的智能编码辅助工具
最近，人工智能编程领域的创新成果层出不穷，让我这个程序员跃跃欲试。今天，我终于决定亲自体验一下阿里云研发的智能编码助手——通义灵码，在我的VisualStudioCode编辑器中成功安装了这款插件，并顺利开启了它的功能。当我打开插件对话框并输入相关的设计需求或代码问题时，只需一......
HDFSDATANODE数据传输详解
本文主要阐述datanode中一个socket连接接收字节流的构成，帮助datanode的接收与处理数据。注意hadoop版本为3.1.1。写在前面Datanode本质上也是TCPServer，一般的TCPServer接到客户端请求以后会分配一个线程处理，对于Datanode而言，这个线程可以叫做Op处理连接。每个OP连接会多次和客户......
Windows压缩文件可以用 PowerShell中的Compress-Archive
压缩单个文件Compress-Archive-Path"D:\tmp\test.txt"-DestinationPath"D:\tmp\test.zip"压缩多个文件Compress-Archive-Path"D:\tmp\test.txt","D:\tmp\test2.txt"-DestinationPath"D:\tmp\test2.zip"压缩文件夹Comp......
Hadoop大数据应用：Linux 部署 HDFS 分布式集群
目录一、实验1.环境2.Linux部署HDFS分布式集群3.Linux使用 HDFS文件系统二、问题1.ssh-copy-id报错2.如何禁用sshkey检测3.HDFS有哪些配置文件4.hadoop查看版本报错5.启动集群报错6.hadoop的启动和停止命令7.上传文件报错8.HDFS使用命令 ......
HDFSRPC协议详解
本文主要阐述HDFSRPCserver端一个socket连接接收字节流的构成，帮助读者理解HDFSRPC协议。注意hadoop版本为3.1.1。写在前面关于proto写入和读取，使用writeDelimitedTo和read，应该是通用的方式，不作过多的介绍。处理rpc各种情况以后server都会使用统一的应答格式（包含错误与正确），......
七、hive、hdfs、hbase查询总结
【hive】1.连接hive：hive2.hive中查询：同mysql，如select* fromtablename; 注意：hive中的操作一定要加分号;否则语句一直不结束【hdfs】1.查询文件或目录hdfsdfs-ls目录名如：hdfsdfs-ls/winhadoop/org/ipva_third_data/2024/03/07查看根目录hdfsdfs......

HDFS辅助工具-文件归档工具archive

HDFS辅助工具-文件归档工具archive

1、背景：

2、概述：

3、创建档案

案例：存档一个目录 /smallfile下的所有文件：

4、查看归档之前的样子

5、提取档案

6、使用注意事项

相关文章

赞助商

阅读排行