首页 > 其他分享 >DataX-Web安装

DataX-Web安装

时间:2024-02-02 10:04:32浏览次数:27  
标签:bin Web web 数据源 任务 DataX 安装 datax

1、介绍

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

任务"执行器"支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU.内存.负载的监控等等。后续还将提供更多的数据源支持、数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。

2、体系结构

DataX-Web安装_Datax

3、功能

1、通过Web构建DataX Json;2、DataX Json保存在数据库中,方便任务的迁移,管理;

3、Web实时查看抽取日志,类似Jenkins的日志控制台输出功能;

4、DataX运行记录展示,可页面操作停止DataX作业;

5、支持DataX定时任务,支持动态修改任务状态、启动/停止任务,以及终止运行中任务,即时生效;

6、调度采用中心式设计,支持集群部署;

7、任务分布式执行,任务"执行器"支持集群部署;

8、执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行;

9、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性HASH、最不经常使用、最近最久未使用、故障转移、忙碌转移等;

10、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖之前调度;

11、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务;

12、任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试;

13、任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方便的扩展短信、钉钉等告警方式;

14、用户管理:支持在线管理系统用户,存在管理员、普通用户两种角色;

15、任务依赖:支持配置子任务依赖,当父任务执行结束且执行成功后将会主动触发一次子任务的执行, 多个子任务用逗号分隔;

16、运行报表:支持实时查看运行数据,以及调度报表,如调度日期分布图,调度成功分布图等;

17、指定增量字段,配置定时任务自动获取每次的数据区间,任务失败重试,保证数据安全;

18、页面可配置DataX启动JVM参数;

19、数据源配置成功后添加手动测试功能;

20、可以对常用任务进行配置模板,在构建完JSON之后可选择关联模板创建任务;

21、jdbc添加hive数据源支持,可在构建JSON页面选择数据源生成column信息并简化配置;

22、优先通过环境变量获取DataX文件目录,集群部署时不用指定JSON及日志目录;

23、通过动态参数配置指定hive分区,也可以配合增量实现增量数据动态插入分区;

24、任务类型由原来DataX任务扩展到Shell任务、Python任务、PowerShell任务;

25、添加HBase数据源支持,JSON构建可通过HBase数据源获取hbaseConfig,column;

26、添加MongoDB数据源支持,用户仅需要选择collectionName即可完成json构建;

27、添加执行器CPU、内存、负载的监控页面;

28、添加24类插件DataX JSON配置样例

29、公共字段(创建时间,创建人,修改时间,修改者)插入或更新时自动填充

30、对swagger接口进行token验证

31、任务增加超时时间,对超时任务kill datax进程,可配合重试策略避免网络问题导致的datax卡死。

32、添加项目管理模块,可对任务分类管理;

33、对RDBMS数据源增加批量任务创建功能,选择数据源,表即可根据模板批量生成DataX同步任务;

34、JSON构建增加ClickHouse数据源支持;

35、执行器CPU.内存.负载的监控页面图形化;

36、RDBMS数据源增量抽取增加主键自增方式并优化页面参数配置;

37、更换MongoDB数据源连接方式,重构HBase数据源JSON构建模块;

38、脚本类型任务增加停止功能;

39、rdbms json构建增加postSql,并支持构建多个preSql,postSql;

40、数据源信息加密算法修改及代码优化;

41、日志页面增加DataX执行结果统计数据;

4、环境依赖

系统环境:

CentOS或Windows

语言:

JDK1.8(建议1.8.201以上)

Python2.x(支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下)

数据库:

Mysql5.7

5、安装

安装DataX-Web之前需先安装DataX,可以点击这里==>《CentOS安装DataX》

5.1 下载

开源地址:https://github.com/WeiYe-Jing/datax-web

DataX工具包下载页面:https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md

官方提供的版本tar版本包:点击下载 提取码:cpsk

DataX-Web安装_DataX-Web_02

5.2 上传

上传文件到服务器,我们这里上传到"/opt"目录下,并解压缩到当前目录

DataX-Web安装_DataX-Web_03

解压缩好的文件

DataX-Web安装_Datax_04

5.3 安装脚本

进入解压后的目录

[root@localhost opt]# cd datax-web-2.1.2
[root@localhost opt]# cd

DataX-Web安装_DataX-Web_05

5.3.1 交互式安装(二选一)

在交互模式下,对各个模块的package压缩包的解压以及configure配置脚本的调用,都会请求用户确认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试。

交互式安装,直接运行bin目录下面的install.sh文件,交互过程中默认全部选择"y"即可。

[root@localhost datax-web-2.1.2]# ./bin/install.sh

5.3.2 一键安装(二选一)

如果不想使用交互模式,跳过确认过程,则执行以下命令安装。

[root@localhost datax-web-2.1.2]# ./bin/install.sh --force

DataX-Web安装_DataX-Web_06

出现以上信息则说明安装成功。

5.4 安装数据库

如果你的服务上安装有mysql命令,在执行安装脚本的过程中则会出现以下提醒:

DataX-Web安装_DataX-Web_07

按照提示输入数据库地址,端口号,用户名,密码以及数据库名称,大部分情况下即可快速完成初始化。

如果服务上并没有安装mysql命令,则可以取用目录下/bin/db/datax-web.sql脚本去指定的数据库手动执行,完成后修改相关配置文件即可。

[root@localhost datax-web-2.1.2]# vi ./modules/datax-admin/conf/bootstrap.properties

DataX-Web安装_DataX-Web_08

按照具体情况配置对应的值即可。

5.6 修改配置

如果需要改变某一模块服务端口号,则编辑指定模块的env.properties文件,修改SERVER_PORT即可。通用命令如下:

vi ./modules/{模块名称}/bin/env.properties

如现在修改datax-admin模块的端口号:

DataX-Web安装_DataX-Web_09

找到SERVER_PORT进行修改即可:

DataX-Web安装_Datax_10

5.6 启动/停止 服务

5.6.1 一键启动所有服务

[root@localhost datax-web-2.1.2]# ./bin/start-all.sh

DataX-Web安装_DataX-Web_11

5.6.2 一键关闭所有服务

[root@localhost datax-web-2.1.2]# ./bin/stop-all.sh

DataX-Web安装_DataX-Web_12

5.6.3 启动/停止 单个服务

命令格式:

# 启动指定模块
./bin/start.sh -m {模块名称}
# 停止指定模块
./bin/start.sh -m {模块名称}

启动datax-admin服务

[root@localhost datax-web-2.1.2]# ./bin/start.sh -m datax-admin

启动datax-executor服务

[root@localhost datax-web-2.1.2]# ./bin/start.sh -m datax-executor

DataX-Web安装_Datax_13

停止命令与启动命令基本一致,就不多做解释了。

5.7 启动建议

如果执行器(datax-executor)启动比 admin(datax-admin) 快,执行器会连接失败,日志会报"拒绝连接"的错误,因此建议优先启动datax-admin模块,等待一会儿再启动datax-executor模块。

5.8 日志跟踪

部署完成之后,可以根据 modules/对应模块/bin/console.out 文件查看服务运行情况。

语法格式:

tail -f modules/{指定的模块}/bin/console.out

查看datax-executor服务运行情况

[root@localhost datax-web-2.1.2]# tail -f modules/datax-executor/bin/console.out

DataX-Web安装_Datax_14

查看datax-executor服务运行情况

[root@localhost datax-web-2.1.2]# tail -f modules/datax-executor/bin/console.out

DataX-Web安装_DataX-Web_15

5.9 查看服务(注意!注意!)

使用jps命令,查看是否出现DataXAdminApplicationDataXExecutorApplication进程,如果存在这表示项目运行成功。

如果项目启动失败,请检查启动日志:modules/datax-admin/bin/console.out或者modules/datax-executor/bin/console.out

[root@localhost datax-web-2.1.2]# jps

5.10 运行

部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面(ip为datax-admin部署所在服务器ip,port为为datax-admin 指定的运行端口),输入用户名 admin 密码123456 就可以直接访问系统。如果访问不了请检查防火墙的端口号是否开启,防火墙的开启请点击==>《CentOS设置防火墙开放端口》

默认地址为:http://127.0.0.1:9527/index.html

DataX-Web安装_DataX-Web_16

登录后界面

DataX-Web安装_DataX-Web_17

5.10 运行日志

部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml 中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。

如果执行器启动比admin快,执行器会连接失败,日志报"拒绝连接"的错误,一般是先启动admin,再启动executor,30秒之后会重连,如果成功请忽略这个异常。



标签:bin,Web,web,数据源,任务,DataX,安装,datax
From: https://blog.51cto.com/abcd/9542057

相关文章

  • WebAssembly核心编程[3]: Module 与 Instance
    WebAssembly程序总是以模块来组织,模块是基本的部署、加载和编译单元。在JavaScript编程接口中,模块通过WebAssembly.Module类型表示。WebAssembly.Module通过加载的.wasm二进制文件创建而成,它承载了描述wasm模块的元数据,类似于描述程序集的Assembly对象。WebAssembly.Module自身是......
  • Web2.5总结
    在交易和财富效用驱动的时代,Web3.0的“妥协方式”: DeFi,NFT和GameFi,甚至是Meme明显更加容易捕获新的用户,投资能够出圈,获得新流量的WEB3消费级应用成为投资热点。艺术领域,2021年,佳士得、苏富比两家传统拍卖行一共拍卖成交了2.5亿美元的NFT,其中6930万美元来自于Beeple的作......
  • quickjs-emscripten webassembly 包
    quickjs-emscripten是基于emscripten将quickjsc版本,编译为了webassembly方便通过npm使用包含的特性支持node以及web使用安全的执行js(支持到es2020)quickjsruntime进行创建以及维护值暴露主机函数到quickjsruntime通过asyncify支持执行异步代码参考使用app.mjs......
  • 响应式的 WebFlux 框架更优雅,性能更强!
    spring-webflux是spring在5.0版本后提供的一套响应式编程风格的web开发框架。这个框架包含了spring-framework和springmvc,它可以运行在Netty、Undertow以及3.1版本以上的Serlvet容器上。你可以在项目中同时使用spring-webmvc和spring-webflux,或者只用其中一个来开发web应用。所谓......
  • 安装mariadb数据库
    1、先安装mariadb数据库sudoapt-getinstallmariadb-servermariadb-client2、查看mysql版本和运行状态查看版本mysql--version输出类似以下:mysqlVer15.1Distrib10.1.29-MariaDB,fordebian-linux-gnu(x86_64)usingreadline5.2查看服务运行状态sudoservicem......
  • centos7安装docker
    在CentOS7上安装Docker可以按照以下步骤进行操作:更新系统软件包列表:shellsudoyumupdate-y添加Docker的官方仓库源。创建并编辑 /etc/yum.repos.d/docker-ce.repo文件:shellsudovi/etc/yum.repos.d/docker-ce.repo将以下内容复制到该文件中保存:text[docker-ce]name......
  • 离线解锁 CodeCombat 全关卡教程 使用docker安装实现
    前期准备下载安装dockerdesktophttps://www.123pan.com/s/fmvUVv-HqApH,这个安装不会的随便搜一个教程,挺多的。我随便找了一个知乎的Windows10Docker安装详细教程下载数据dump.tar.gzhttps://www.123pan.com/s/fmvUVv-hqApH开始打开cmd拉镜像dockerpulloper......
  • Mysql超详细安装配置教程(保姆级)
    一、下载Mysql从官网下载MySQL,这里我选用的是Mysql8.0.34版本   二、安装Mysql下载完成后直接双击进行安装,打开后的页面如下所示:“DeveloperDefault”是开发者默认“Serveronly”仅作为服务器安装“Clientonly”仅作为客户端安装“Full”是完整安装“Custom”......
  • mozhe靶场: WebShell文件上传漏洞分析溯源(第5题) 题解(使用哥斯拉)
    哥斯拉由java编写,可以在linux上使用.个人认为比冰蝎好用,用冰蝎连不上这个靶场,但是哥斯拉可以连的上.github搜哥斯拉就能下载首先登陆后台,弱口令adminadmin点击添加文章,尝试上传一句话木马(一句话木马可以点击哥斯拉的生成)webshell.asp<%evalrequest("pass")%>......
  • Nexus系列:简介和安装(Windows、Linux)以及反向代理Nexus
    目录简介安装WindowsLinuxNexus相关命令Nginx反向代理Nexus简介SonatypeNexus是一个Maven仓库管理器,可以节省网络带宽并加速项目搭建的进程。它可以管理jar包的仓库,包括上传和下载jar包。此外,SonatypeNexus还可以配置其他远程maven仓库站点,作为公共maven仓库的专用代理服务器,......