首页 > 其他分享 >HDFS辅助工具-跨集群复制数据工具distcp

HDFS辅助工具-跨集群复制数据工具distcp

时间:2024-03-18 13:56:47浏览次数:32  
标签:HDFS 复制 集群 辅助工具 拷贝 foo 数据 distcp

HDFS辅助工具-跨集群复制数据工具distcp

概述

  • DistCp是Hadoop中的一种工具,在hadoop-tools工程下,作为独立子工程存在。
  • 定位用于数据迁移,定期在集群之间和集群内部备份数据
  • 在备份过程中,每次运行DistCP都称为一个备份周期。尽管性能相对较慢,但它的普及程度越来越高
  • DistCp底层使用MapReduce 在群集之间或并行在同一群集内复制文件。执行复制的MapReduce只有mapper阶段

image-20240316231601800

命令

$ hadoop distcp
usage: distcp OPTIONS [source_path...] <target_path>
-append                //拷贝文件时支持对现有文件进行追加写操作
-async                  //异步执行distcp拷贝任务
-bandwidth <arg>        //对每个Map任务的带宽限速
-delete                 //删除相对于源端,目标端多出来的文件
-diff <arg>             //通过快照diff信息进行数据的同步                  
-overwrite              //以覆盖的方式进行拷贝,如果目标端文件已经存在,则直接覆盖
-p <arg>                //拷贝数据时,扩展属性信息的保留,包括权限信息,块大小信息等等
-skipcrccheck          //拷贝数据时是否跳过cheacksum的校验
-update                 //拷贝数据时,只拷贝相对于源端 ,目标端不存在的文件数据

  • 其中source_path、target_path 需要带上地址前缀以区分不同的集群
hadoop distcp hdfs://nnl:8020/foo/a   hdfs://nn2:8020/bar/foo
  • 上面的命令表示从nnl集群拷贝/foo/a 路径下的数据到nn2集群的/bar/foo 路径下。

标签:HDFS,复制,集群,辅助工具,拷贝,foo,数据,distcp
From: https://www.cnblogs.com/luoluoange/p/18080250

相关文章

  • HDFS分布式文件系统
    HDFS分布式文件系统一、HDFS概念HDFS介绍HDFS是HadoopDistributeFileSystem的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大......
  • HDFS的垃圾回收机制
    HDFS的垃圾回收机制1.垃圾桶机制解析每一个文件系统都会有垃圾桶机制,便于将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件。回收到垃圾桶里里面的资料数据,都可以进行恢复。2.垃圾桶机制配置HDFS的垃圾回收的默认配置属性为0,也就是说,如果不小心误删除了某样东西......
  • HDFS 安全模式
    HDFS安全模式安全模式概述:安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。在NameNode主节点启动时,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode在启动的......
  • 试用AI做方案设计,通义灵码——一个博学但“健忘”的智能编码辅助工具
    最近,人工智能编程领域的创新成果层出不穷,让我这个程序员跃跃欲试。今天,我终于决定亲自体验一下阿里云研发的智能编码助手——通义灵码,在我的VisualStudioCode编辑器中成功安装了这款插件,并顺利开启了它的功能。当我打开插件对话框并输入相关的设计需求或代码问题时,只需一......
  • HDFSDATANODE数据传输详解
    本文主要阐述datanode中一个socket连接接收字节流的构成,帮助datanode的接收与处理数据。注意hadoop版本为3.1.1。写在前面Datanode本质上也是TCPServer,一般的TCPServer接到客户端请求以后会分配一个线程处理,对于Datanode而言,这个线程可以叫做Op处理连接。每个OP连接会多次和客户......
  • Hadoop大数据应用:Linux 部署 HDFS 分布式集群
    目录  一、实验1.环境2.Linux部署HDFS分布式集群3.Linux使用 HDFS文件系统二、问题1.ssh-copy-id报错2.如何禁用sshkey检测3.HDFS有哪些配置文件4.hadoop查看版本报错5.启动集群报错6.hadoop的启动和停止命令7.上传文件报错8.HDFS使用命令  ......
  • HDFSRPC协议详解
    本文主要阐述HDFSRPCserver端一个socket连接接收字节流的构成,帮助读者理解HDFSRPC协议。注意hadoop版本为3.1.1。写在前面关于proto写入和读取,使用writeDelimitedTo和read,应该是通用的方式,不作过多的介绍。处理rpc各种情况以后server都会使用统一的应答格式(包含错误与正确),......
  • 七、hive、hdfs、hbase查询总结
    【hive】1.连接hive:hive2.hive中查询:同mysql,如select* fromtablename;  注意:hive中的操作一定要加分号;否则语句一直不结束 【hdfs】1.查询文件或目录hdfsdfs-ls目录名  如:hdfsdfs-ls/winhadoop/org/ipva_third_data/2024/03/07查看根目录hdfsdfs......
  • HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
    HDFS读数据流程    事件描述:客户端要下载一个200m的数据文件,hdfs是如何读取的。   两个对象:一个客户端、一个集群   流程:       1.客户端创建一个分布式文件系统(DistributedFileSystem),向集群NameNode请求下载文件。       ......
  • hdfs文件传输到ods层的脚本
     #!/usr/bin/python3#coding=utf-8importsysfrombaseimportget_yesterday,APPimportsubprocessdate=get_yesterday()tables=['ods_log_inc','ods_activity_info_full','ods_activity_rule_full','ods_base_categ......