本期介绍数据迁移工具-datax的使用。
1.安装
datax是阿里开源的数据同步工具,常见于大数据应用。之前我们项目选型为Sqoop,但是很遗憾该工具和eureka一样早已停止维护了,所以选择使用datax。
https://github.com/alibaba/DataX (推荐去GitHub上看一看,因为有很多资料可以供你更全面的了解DataX)
底部有连接可以直接下载 :下载后直接安装即可,该工具安装甚是简单。
https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz
解压至你想指定的目录下:
tar -zxvf /home/hadoop/data.tar.gz -C /export/server/
2.目录
解压后我们先看一下其目录结构
2.1 、进入bin目录
其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py
可以看出是python脚本文件,想要执行任务的时候就是用datax.py文件来执行
2.2 、进入config目录
该目录有两个文件,core.json和logback.xml是日志
2.3 、进入job目录
该目录只有一个名为job.json文件,是一个任务脚本
把postgresql数据库写入hdfs中的JSON脚本就是放在该目录
--查看该文件内容:就是一个大的JSON串
2.4、进入plugin目录,里面有各种的数据源依赖
----分为两大项,见名知意就是读和写
----可以看到reader目录下有各种数据源,其目录下就是对应的jar包和相关配置文件和模板
3.运行DataX的自检脚本
此时了解差不多了,我们要运行自建脚本。
1.cd /DATA_HOME/bin ---先进入datax的bin目录下
2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本
DATA_HOME:为你自己安装的目录
job:为datax下的job任务目录
job.json:为任务脚本
提示:datax依赖python环境,若是没有安装python需要安装,使用如下命令,不多赘述 yum install -y python
--运行后查看打印的信息内容
最后会打印出具体的任务信息,该自检脚本数据为10万条。此时你就正常使用DataX可以了
注意:
如果你想要写job任务但是不知道如何写JSON脚本,可以使用 进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter
-r :reader的缩写,后跟你想要操作的数据源
-w:writer的缩写,同上
该命令可以给你一个模板供你参考
该模板详细介绍:
注意!!!
如果你不知道怎么查看对应的JSON模板,就需要去官方文档中查看。
github.com/alibaba/DataX
标签:脚本,bin,同步,datx,py,job,datax,迁移,目录 From: https://blog.csdn.net/Russell_b/article/details/140601930