首页 > 其他分享 >数据迁移(同步)-datx

数据迁移(同步)-datx

时间:2024-07-22 10:27:09浏览次数:8  
标签:脚本 bin 同步 datx py job datax 迁移 目录

本期介绍数据迁移工具-datax的使用。

1.安装

datax是阿里开源的数据同步工具,常见于大数据应用。之前我们项目选型为Sqoop,但是很遗憾该工具和eureka一样早已停止维护了,所以选择使用datax。

https://github.com/alibaba/DataX (推荐去GitHub上看一看,因为有很多资料可以供你更全面的了解DataX)

底部有连接可以直接下载 :下载后直接安装即可,该工具安装甚是简单。

https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz

解压至你想指定的目录下:

tar -zxvf  /home/hadoop/data.tar.gz  -C /export/server/
 

2.目录

解压后我们先看一下其目录结构

2.1 、进入bin目录

其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py

可以看出是python脚本文件,想要执行任务的时候就是用datax.py文件来执行

2.2 、进入config目录

该目录有两个文件,core.json和logback.xml是日志

2.3 、进入job目录

该目录只有一个名为job.json文件,是一个任务脚本

把postgresql数据库写入hdfs中的JSON脚本就是放在该目录

--查看该文件内容:就是一个大的JSON串

2.4、进入plugin目录,里面有各种的数据源依赖

----分为两大项,见名知意就是读和写

----可以看到reader目录下有各种数据源,其目录下就是对应的jar包和相关配置文件和模板

3.运行DataX的自检脚本

此时了解差不多了,我们要运行自建脚本。

1.cd /DATA_HOME/bin  ---先进入datax的bin目录下

2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本

DATA_HOME:为你自己安装的目录

job:为datax下的job任务目录

job.json:为任务脚本

提示:datax依赖python环境,若是没有安装python需要安装,使用如下命令,不多赘述 yum install -y python

--运行后查看打印的信息内容

最后会打印出具体的任务信息,该自检脚本数据为10万条。此时你就正常使用DataX可以了

注意:

如果你想要写job任务但是不知道如何写JSON脚本,可以使用 进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter

-r :reader的缩写,后跟你想要操作的数据源

-w:writer的缩写,同上

该命令可以给你一个模板供你参考

该模板详细介绍:

注意!!!

如果你不知道怎么查看对应的JSON模板,就需要去官方文档中查看。

github.com/alibaba/DataX

标签:脚本,bin,同步,datx,py,job,datax,迁移,目录
From: https://blog.csdn.net/Russell_b/article/details/140601930

相关文章

  • 如何平稳地从nacos迁移到r-nacos?
    1.引言很多同学了解r-nacos特性后最开始只将r-nacos用于开发测试环境。经过一段时间的使用后,部分同学有打算生产环境也从nacos迁移到r-nacos。那么如何平衡地从nacos迁移到r-nacos呢?r-nacos简介:r-nacos是一个用rust实现的nacos服务。相较于javanacos来说,是一个提供相同功......
  • matlab永磁同步电机反馈试验装置的设计和永磁同步电机仿真
    1、内容简介略85-可以交流、咨询、答疑2、内容说明略摘要:得益于电力电子器件及控制技术的高速发展,使得电机的应用越来越方便及精确,适应了实际应用对电机性能及质量提出的更高要求和标准。同时电机测试技术也因为电力电子技术的发展,变得更加智能,更加节能,更加可靠和准确。......
  • 迁移学习Transfer learning 与 元学习Meta-learning,二者的联系和差异
    基本概念:迁移学习tansferlearning迁移学习(tansferlearning):运用已有领域学到的知识来辅助新环境中的学习任务。新兴领域往往缺少大量训练数据,直接从头训练成本太高,而相关领域的知识学习是相似的,因此我们可以运用已有的相关知识(sourcedomain)迁移到新的学习任务(targetdomain)上......
  • 抽象队列同步器AQS
    AQS是AbstractQueuedSynchronizer的简称,即抽象队列同步器,从字面上可以这样理解:抽象:抽象类,只实现一些主要逻辑,有些方法由子类实现;队列:使用先进先出(FIFO)的队列存储数据;同步:实现了同步的功能。AQS是一个用来构建锁和同步器的框架,使用AQS能简单且高效地构造出应用广泛的同步......
  • 番外篇: go语言写的简要数据同步工具
    go-etl工具作为go-etl工具的作者,想要安利一下这个小巧的数据同步工具,它在同步百万级别的数据时表现极为优异,基本能在几分钟完成数据同步。1.它能干什么的?go-etl是一个数据同步工具集,目前支持MySQL,postgres,oracle,SQLSERVER,DB2等主流关系型数据库以及csv,xlsx文件之间的数据......
  • 多线程同步利器:条件变量 Condition Variable 的深度解析
    ......
  • 多线程同步机制中 lock_guard 与 unique_lock 的使用区别
    ......
  • NebulaGraph 3.6的迁移​
    一.环境原IP目标IP迁移的服务备注192.168.11.20192.168.11.23nebula-metadnebula-graphdnebula-storaged服务部署目录/opt/nebulagraph数据存储目录/data/nebula192.168.11.21192.168.11.24192.168.11.22192.168.11.25二.迁移前的准备操作系统......
  • github如何实现和gitlab的同步
    要实现GitHub和GitLab之间的同步,你可以使用以下几种方法。这里介绍两种常用的方法:使用GitLabCI/CD和使用镜像仓库。方法1:使用GitLabCI/CD通过GitLabCI/CD,可以在每次推送到GitLab时自动同步到GitHub。以下是具体步骤:步骤1:在GitHub上创建一个空仓库在Git......
  • 【SQL】主从同步延迟怎么处理
    主从同步延迟是指在主从复制环境中,从库数据更新滞后于主库的现象。延迟可能会影响读取操作的数据一致性。处理主从同步延迟的方法包括优化配置、提升硬件性能、调整应用程序逻辑等。以下是一些具体方法和策略:优化配置调整复制参数:sync_binlog:在主库上设置sync_binlog=1......