首页 > 其他分享 >使用Distcp进行Hadoop数据迁移

使用Distcp进行Hadoop数据迁移

时间:2023-12-26 16:24:26浏览次数:30  
标签:hdfs hadoop Hadoop 迁移 目录 Distcp

使用Distcp进行Hadoop数据迁移

DispCP官方文档

在进行数据迁移前确认数据量大小和数据文件数,源端和目的端都需要确认:
hdfs dfs -count /
59790 7008 22875716090 /

  • 59790:表示目录 / 下的文件总数,即包括目录和文件在内的所有对象的数量。
  • 7008:表示目录 / 下的子目录(即非文件)的数量。
  • 22875716090:表示目录 / 下的所有对象(包括文件和目录)的总大小,以字节为单位。

hdfs dfs -du -s -h /
21.3 G 63.9 G /

  • 21.3 G:表示目录 / 下的所有对象的总大小,以 GB 为单位。这是一个人类可读的格式,以便更好地理解数据量的大小。
  • 63.9 G:表示目录 / 下的所有对象占用磁盘空间的总大小,以 GB 为单位。这是实际磁盘上的物理存储空间。

迁移命令:
hadoop distcp -update -skipcrccheck -delete -bandwidth 50 -m 100 hdfs://hive-hadoop-namenode:9000/ hdfs://new-hive-hadoop-namenode:9000/

  • -bandwidth 以MB/秒为单位指定每个映射的带宽。每个映射将被限制为仅使用指定的带宽
  • -skipcrccheck 是否跳过源路径和目标路径之间的CRC检查
  • -delete 删除dst中现有但不在src中的文件
  • -m 同时复制的最大数量

标签:hdfs,hadoop,Hadoop,迁移,目录,Distcp
From: https://www.cnblogs.com/hghbest/p/17928210.html

相关文章

  • ES 进行数据迁移 reindex (加速)
    https://www.cnblogs.com/ititit111222333/p/16382943.html 修改批量大小值POST_reindex{"source":{"index":"源索引名称","size":5000},"dest":{"index":"迁移的索引......
  • ABP-VNext 用户权限管理系统实战01---AuthServer服务迁移数据库到mysql
    一、从github上获取源码后修改命名空间下载dome后修改解决方案名为Bridge。 二、默认是连接sqlserver的,需要修改为可以连接mysql修改appsettings.json文件的ConnectionStrings参数,准备一个可以连接的mysql,新建数据库bridge{"ConnectionStrings":{"Default":"Server=xxx......
  • C# 解决从其他地方迁移项目,引用中大多数包是感叹号的问题
    当在VisualStudio中复制别人的C#项目时,遇到许多包冒感叹号的问题通常是因为缺少相关的NuGet包或引用不正确导致的。这会在解决方案资源管理器中的引用下显示感叹号。解决办法如下:在VisualStudio中打开项目。在解决方案资源管理器中,找到项目中的引用文件夹。右击要修改......
  • 将Gitlab迁移到内网Proxmox VE
    将Gitlab迁移到内网ProxmoxVE在一台服役超过15年得高龄服务器上,运行了一套Gitlab11.0,因为使用的人比较少,访问不频繁,未将其加入到高可用集群平台。但是最近以来,开发人员经常反馈Gitlab不能使用,通过仔细排查,发现故障的原因是物理服务器运行一段时间后就死机。为了解决这个麻烦,计划......
  • Jenkins版本升级后Job的迁移
    场景在平时使用中apt-update不小心把jenkins由原来的2.303.2升级到2.414.3,造成原有的job无法工作解决方法只需要通过直接复制job对应目录下config.xml文件实现迁移旧的Job。config.xml文件包含了JenkinsJob的配置信息,包括源码配置、触发条件、构建步骤等等。迁移过程如下:1.......
  • 搭建Hadoop开发环境并运行WordCount测试程序
    步骤1:修改主机名和IP地址1.1修改主机名sudohostnamectlset-hostnameyour_hostname1.2修改IP地址和绑定主机名与IP,根据你的网络配置进行设置。步骤2:关闭防火墙并关闭防火墙开机启动sudosystemctlstopfirewalldsudosystemctldisablefirewalld步骤3:安装JDK并配置环境......
  • 人工智能算法原理与代码实战:迁移学习与跨领域应用
    1.背景介绍人工智能(ArtificialIntelligence,AI)是一门研究如何让计算机模拟人类智能的学科。人工智能的主要目标是开发一种能够理解自然语言、学习新知识、解决问题、进行推理、感知环境、自主行动等多种智能行为的计算机系统。迁移学习(TransferLearning)是一种人工智能技术,它允许......
  • Hadoop YARN Cgroups 资源隔离讲解
    目录一、概述二、Hadoop环境准备三、内存资源限制四、CPU资源限制1)启用LCE2)启用CGroup3)配置YarnCGroup目录3)CPU资源限制一、概述HadoopYARN(YetAnotherResourceNegotiator)使用Cgroups(ControlGroups)来进行资源管理和隔离。Cgroups是Linux内核提供的一种机制,......
  • Hadoop集群迁移(元数据及HDFS数据)
    1.背景老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和hdfs基础数据迁移过来。EMR版本:3.1.2自建Hadoop版本:3.1.32.集群迁移步骤2.1数据迁移nohuphadoopdistcp-i-phdfs://emrhdf存储地址/......
  • EFCore 迁移(5)
    当模型发生更改时,将在正常开发过程中添加和删除迁移,并将迁移文件签入项目的源代码管理,进行迁移时,必须在启动程序中安装nuget包:Microsoft.EntityFrameworkCore.Tools,并在VS的程序包管理器控制台执行迁移指令管理迁移:1、新增迁移,Init指迁移名称,用途与版本控制中提交信息类似,有助于......