首页 > 其他分享 >HDFS数据(跨集群)迁移

HDFS数据(跨集群)迁移

时间:2023-02-17 15:12:12浏览次数:48  
标签:HDFS hdfs 集群 8020 迁移 foo 拷贝 nn1 distcp

一、数据迁移使用场景

1.冷热集群数据同步、分类存储
2.整体数据整体搬迁
3.数据准实时同步(备份)

二、考量因素

1.网络传输带宽及时间,是否会影响现有业务
2.性能,单机?多线程?分布式?
3.是否正常增量同步
4.数据迁移的同步性(同步单位时间数据超过单位时间)

三、DistCp工具使用

3.1 简介

distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用 Map/Reduce 实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为 map 任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了 Map/Reduce 方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用 distcp 操作提供指南并阐述它的工作模型。
特性:
1.hadoop自带,并支持带宽限流
2.高性能,底层使用MapReduce 进行分布式计算
3.支持增量数据同步,主要有以下三个参数: 
    update(只拷贝不存在的文件或目录):解决新增文件、目录的同步
    append(追加写目标路径下已存在的文件) :解决已存在文件的增量同步
    diff(通过快照对比信息同步源端路径和目标路径):解决删除或重命名文件的同步

3.2 命令指南  

参考链接:https://hadoop.apache.org/docs/r3.1.4/hadoop-distcp/DistCp.html

hadoop distcp
usage: distcp OPTIONS [source_path...] <target_path>
 -append              拷贝文件时支持对现有文件进行追加写操作
 -async               异步执行distcp 拷贝任务
 -bandwidth <arg>     对每个Map任务的带宽限速
 -delete              删除对于源端多出的文件或目录
 -diff <arg>          通过快照diff信息进行数据同步
 -overwrite           以覆盖的方式进行拷贝,如果目标端存在,则直接覆盖
 -p <arg>             拷贝数据时,扩展信息保留,如权限 块大小信息
 -skipcrccheck        拷贝数据时是否跳过 checksum校验
 -update              拷贝数据时只拷贝相对于源端,目标端不存在的文件数据
 -i					忽略失败
 -f <urllist_uri>     将urlist_uri作为源文件列表
 -filters		     排除指定路径和文件不做拷贝          

3.3 基本使用方法

1.跨集群拷贝
其中source_path 、target_path 需要带上地址前缀以区分不同的集群
例如: hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn2:8020/bar/foo (nn1 nn2 分别表示两个集群的namenode)
上面的命令表示从nnl集群拷贝/foo/a路径下的数据到nn2集群的/ bar/foo路径下,注意,源路径必须是绝对路径。

2.通过命令行指定多个源目录
hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn1:8020/foo/b hdfs://nn2:8020/bar/foo

3.通过文件指定多个源目录
hadoop distcp -f hdfs://nn1:8020/srclist hdfs://nn2:8020/bar/foo
其中 srclist 的内容格式是
hdfs://nn1:8020/foo/a
hdfs://nn1:8020/foo/b

4.排除指定文件不拷贝
adoop distcp -filters /path/to/filterfile.txt hdfs://nn1:8020/source/path  hdfs://nn2:8020/destination/path  # 
# filterfile.txt 在本地文件系统上
# filterfile.txt文件格式
.*test.*                           # 正则表达式法
/source/test                       # 在源集群上
hdfs://0.0.0.0:8020/source/test    # 在目标集群上,需要写全路径

3.4 其他  

1.map数目
distcp会尝试着均分需要拷贝的内容,这样每个map拷贝差不多相等大小的内容。 但因为文件是最小的拷贝粒度,所以配置增加同时拷贝(如map)的数目不一定会增加实际同时拷贝的数目以及总吞吐量。
如果没使用 -m选项,distcp会尝试在调度工作时指定map的数目 为 min (total_bytes / bytes.per.map, 20 * num_task_trackers), 其中 bytes.per.map默认是256MB。
建议对于长时间运行或定期运行的作业,根据源和目标集群大小、拷贝数量大小以及带宽调整map的数目。
hadoop distcp -Ddistcp.bytes.per.map=1073741824 -Ddfs.client.socket-timeout=240000000 -Dipc.client.connect.timeout=40000000 -i -update hdfs://nn1:8020/foo/a hdfs://nn1:8020/foo/b hdfs://nn2:8020/bar/foo

2.不同HDFS版本间的拷贝(大版本)
对于不同Hadoop版本间的拷贝,用户应该使用HftpFileSystem。 这是一个只读文件系统,所以distcp必须运行在目标端集群上(更确切的说是在能够写入目标集群的TaskTracker上)。 
源的格式是 webhdfs://<dfs.http.address>/<path> (默认情况 dfs.http.address是 <namenode>:port, prot:3.x 8020,2.x 50070)
# 此命令适用于2.x迁移到3.x
hadoop distcp webhdfs://nn1:50070/user/hive/warehouse/demo.db hdfs://nn2:8020/user/hive/warehouse

  

 

 

标签:HDFS,hdfs,集群,8020,迁移,foo,拷贝,nn1,distcp
From: https://www.cnblogs.com/panwenbin-logs/p/17130180.html

相关文章

  • HDFS读写数据流程
    文件写入(1)HDFSClient上传文件到集群,HDFSClient会创建本地的分布式文件系统(DistributedFileSystem),向集群NameNode请求上传文件(2)NameNode检查目录树是否允许创建文件,检查......
  • 【服务器数据恢复】服务器迁移数据时数据丢失的数据恢复案例
    服务器数据恢复环境&故障:一台某品牌的存储设备,Windows操作系统。由于业务需求,需要把这台存储设备中的数据迁移到另外一台存储设备中,在迁移数据过程中突然无法读取数据,管理......
  • HDFS文件块
    知识点补充HDFS优缺点:优点(1)高容错性。节点存放的副本比较多。(2)适合处理大数据。GB、TB、PB级别的数据都可以处理。(3)可以构建在廉价的机器上,通过多副......
  • docker目录迁移流程
      概述在安装测试最新版本的HOMER7的过程中,docker作为基础工具碰到一些问题,针对问题进行总结。docker的默认工作目录在/var目录,而在我们的环境中,/var目录空间预留不......
  • docker nacos 集群 部署
    准备安装mysql(192.168.1.101)建库nacos_config安装docker(yum方式)安装nacosdocker(参看前一篇)集群部署方案三台Linux服务器nacos-server-01192.168.1.136nac......
  • IoT 边缘集群基于 Kubernetes Events 的告警通知实现(二):进一步配置
    上一篇文章IoT边缘集群基于KubernetesEvents的告警通知实现目标告警恢复通知-经过评估无法实现原因:告警和恢复是单独完全不相关的事件,告警是Warning级别......
  • hdfs操作——hdfs的shell命令和hdfs的JavaAPI操作
    hdfs解决hadoop海量数据的存储。shell命令(所有hadoopfs可由hdfsdfs代替)(1)在hdfs上创建目录hadoopfs-mkdir目录名(2)本地文件的上传hadoopfs-copyFromLoc......
  • 快速部署一个K8s集群——kubernetes v1.26,kubeadm方式
    快速部署一个K8s集群——kubernetesv1.26,kubeadm方式1、前置知识点1.1生产环境可部署Kubernetes集群的两种方式目前生产部署Kubernetes集群主要有两种方式:•kubea......
  • 配置环境迁移
    情况一.目标机器可以联网 1.输出环境中所有库打开cmd,进入目标路径,导出项目中所安装的所有包首先将cmd中路径改为项目所在文件夹,以及环境改为所需输出环境。  输......
  • docker-compose搭建redis-Cluster集群
    环境选择三台机器创建相同目录级:/database/redis/在目录里创建文件:viredis-cluster.tmpl查看防火墙--如果防火墙的状态是打开的记得开端口文件配置redis-clust......