数据迁移（同步）-datx

标签：脚本 bin 同步 datx py job datax 迁移目录

本期介绍数据迁移工具-datax的使用。

1.安装

datax是阿里开源的数据同步工具，常见于大数据应用。之前我们项目选型为Sqoop，但是很遗憾该工具和eureka一样早已停止维护了，所以选择使用datax。

https://github.com/alibaba/DataX （推荐去GitHub上看一看，因为有很多资料可以供你更全面的了解DataX）

底部有连接可以直接下载：下载后直接安装即可，该工具安装甚是简单。

https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz

解压至你想指定的目录下：

tar -zxvf /home/hadoop/data.tar.gz -C /export/server/

2.目录

解压后我们先看一下其目录结构

2.1 、进入bin目录

其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py

可以看出是python脚本文件，想要执行任务的时候就是用datax.py文件来执行

2.2 、进入config目录

该目录有两个文件，core.json和logback.xml是日志

2.3 、进入job目录

该目录只有一个名为job.json文件，是一个任务脚本

把postgresql数据库写入hdfs中的JSON脚本就是放在该目录

--查看该文件内容：就是一个大的JSON串

2.4、进入plugin目录，里面有各种的数据源依赖

----分为两大项，见名知意就是读和写

----可以看到reader目录下有各种数据源，其目录下就是对应的jar包和相关配置文件和模板

3.运行DataX的自检脚本

此时了解差不多了，我们要运行自建脚本。

1.cd /DATA_HOME/bin ---先进入datax的bin目录下

2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本

DATA_HOME：为你自己安装的目录

job：为datax下的job任务目录

job.json：为任务脚本

提示：datax依赖python环境，若是没有安装python需要安装,使用如下命令，不多赘述 yum install -y python

--运行后查看打印的信息内容

最后会打印出具体的任务信息，该自检脚本数据为10万条。此时你就正常使用DataX可以了

注意：

如果你想要写job任务但是不知道如何写JSON脚本，可以使用进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter

-r :reader的缩写，后跟你想要操作的数据源

-w:writer的缩写，同上

该命令可以给你一个模板供你参考

该模板详细介绍：

注意！！！

如果你不知道怎么查看对应的JSON模板，就需要去官方文档中查看。

github.com/alibaba/DataX

标签：脚本,bin,同步,datx,py,job,datax,迁移,目录
From： https://blog.csdn.net/Russell_b/article/details/140601930

1.安装

2.目录

3.运行DataX的自检脚本

相关文章

赞助商

阅读排行