首页 > 其他分享 >数据迁移(同步)-datx

数据迁移(同步)-datx

时间:2024-07-22 10:27:09浏览次数:19  
标签:脚本 bin 同步 datx py job datax 迁移 目录

本期介绍数据迁移工具-datax的使用。

1.安装

datax是阿里开源的数据同步工具,常见于大数据应用。之前我们项目选型为Sqoop,但是很遗憾该工具和eureka一样早已停止维护了,所以选择使用datax。

https://github.com/alibaba/DataX (推荐去GitHub上看一看,因为有很多资料可以供你更全面的了解DataX)

底部有连接可以直接下载 :下载后直接安装即可,该工具安装甚是简单。

https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz

解压至你想指定的目录下:

tar -zxvf  /home/hadoop/data.tar.gz  -C /export/server/
 

2.目录

解压后我们先看一下其目录结构

2.1 、进入bin目录

其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py

可以看出是python脚本文件,想要执行任务的时候就是用datax.py文件来执行

2.2 、进入config目录

该目录有两个文件,core.json和logback.xml是日志

2.3 、进入job目录

该目录只有一个名为job.json文件,是一个任务脚本

把postgresql数据库写入hdfs中的JSON脚本就是放在该目录

--查看该文件内容:就是一个大的JSON串

2.4、进入plugin目录,里面有各种的数据源依赖

----分为两大项,见名知意就是读和写

----可以看到reader目录下有各种数据源,其目录下就是对应的jar包和相关配置文件和模板

3.运行DataX的自检脚本

此时了解差不多了,我们要运行自建脚本。

1.cd /DATA_HOME/bin  ---先进入datax的bin目录下

2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本

DATA_HOME:为你自己安装的目录

job:为datax下的job任务目录

job.json:为任务脚本

提示:datax依赖python环境,若是没有安装python需要安装,使用如下命令,不多赘述 yum install -y python

--运行后查看打印的信息内容

最后会打印出具体的任务信息,该自检脚本数据为10万条。此时你就正常使用DataX可以了

注意:

如果你想要写job任务但是不知道如何写JSON脚本,可以使用 进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter

-r :reader的缩写,后跟你想要操作的数据源

-w:writer的缩写,同上

该命令可以给你一个模板供你参考

该模板详细介绍:

注意!!!

如果你不知道怎么查看对应的JSON模板,就需要去官方文档中查看。

github.com/alibaba/DataX

标签:脚本,bin,同步,datx,py,job,datax,迁移,目录
From: https://blog.csdn.net/Russell_b/article/details/140601930

相关文章