首页 > 其他分享 >DataX--Web:图形化界面简化大数据任务管理

DataX--Web:图形化界面简化大数据任务管理

时间:2024-09-21 09:50:45浏览次数:9  
标签:Web web -- 调度 任务 datax 图形化 DataX

        在处理大数据任务时,频繁地修改配置文件或编写脚本可能会变得繁琐且容易出错。DataX Web提供了一个图形化界面,旨在简化这些操作,让用户通过直观的界面管理数据同步任务。

DataX Web简介

        DataX Web是一个开源项目,它允许用户通过Web界面来配置和管理DataX的数据同步任务。它支持RDBMS、Hive、HBase、ClickHouse、MongoDB等多种数据源,使得数据同步任务的创建和管理变得更加便捷。

安装与配置

        安装DataX Web相对简单,用户可以从GitHub上下载源码并按照文档进行配置。配置过程中可能需要调整一些环境变量或配置文件,以确保DataX Web能够正确连接到数据源。

github地址:https://github.com/WeiYe-Jing/datax-web

网盘下载链接:datax-web-2.1.2.tar.gz

安装

1、上传
2、解压
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/installs/
3、安装
cd /opt/installs/datax-web-2.1.2/bin
执行安装程序
./install.sh

修改配置文件

vi /opt/installs/datax-web-2.1.2/modules/datax-executor/bin/env.properties

修改此处:
PYTHON_PATH=/opt/installs/datax/bin/datax.py

启动和关闭

因为它的启动和关闭命令跟我的hadoop集群命令一模一样,所以我要修改它:
mv start-all.sh start-web.sh
mv stop-all.sh stop-web.sh

配置环境变量:
export DATAX_WEB_HOME=/opt/installs/datax-web
export PATH=$PATH:$DATAX_WEB_HOME/bin

记得刷新!!

source /etc/profile
bin路径下,有一个 start-all.sh  启动
stop-all.sh 关闭
不要配置环境变量

/opt/installs/datax-web-2.1.2/bin
运行的时候  ./start-all.sh

浏览

在上一步启动dataxweb之后,通过浏览器可以进行dataxweb的访问,具体地址如下:
http://bigdata01:9527/index.html
进入网页之后,要求输入登录的用户名与密码,使用默认的即可:
用户名:admin
密码:123456

查看jps

使用DataX Web

        在DataX Web中,用户首先需要创建一个项目并添加相应的数据源,如MySQL、Hive等,用户可以根据需要添加DataX模板,这些模板定义了数据同步任务的配置模板。通过图形化界面,用户可以轻松编写数据同步任务,如从Hive导出数据到MySQL。DataX Web允许用户执行任务并实时查看运行日志和监控执行器资源。这使得任务的监控和管理变得更加直观和方便。

创建项目

添加数据源

首先添加mysql数据源

 

添加hive的数据源

启动hive的远程连接
hive-server-manager.sh start hiveserver2

查看日志:
tail -f  /var/log/my_hive_log/hiveserver2.log
连接正常再进行配置

添加DataX模板

名词解释:
- 执行器:目前只有datax可选
- 路由策略:用于集群化部署后,任务的分配,默认随机即可。
- 阻塞处理:在调度出现积压时(同时启动大量的数据处理任务)使用的策略:
- 单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;
- 丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;
- 覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;
    `建议使用单机串行与丢弃后续调度`
- 任务类型:目前只有DataX选项可以选择
- Cron:调度定时执行器,通过该配置可以完成定时、定周期启动

编写任务

以hive数据导出到mysql为例

配置hdfsreader

配置mysqlwriter

配置字段映射

查看json

记得点击【下一步】,否则任务不创建。

任务执行与监控

查看任务并执行

查看运行结果和日志

编辑任务

注意事项

        在使用DataX Web时,需要注意数据源的字段类型与DataX或Hive中的字段类型匹配。例如,Hive中的int类型在DataX中可能需要改为long

结语

        DataX Web作为一个图形化工具,极大地简化了DataX数据同步任务的管理。它通过提供一个用户友好的界面,使得即使是非技术用户也能够轻松地配置和管理复杂的数据同步任务。随着大数据技术的不断发展,DataX Web有望成为大数据任务管理的重要工具。

标签:Web,web,--,调度,任务,datax,图形化,DataX
From: https://blog.csdn.net/weixin_64726356/article/details/142358256

相关文章

  • Python 中的 strip() 和 split() 方法详解
    目录一、strip()方法1.什么是strip()?2.基本语法3.基本用法示例1)去除空白字符2)移除指定字符4.lstrip()和rstrip()5.注意事项二、split()方法1.什么是split()?2.基本语法3.基本用法示例1)按空格分割字符串2)指定分隔符3)限制分割次数4.rsplit()方法......
  • 828华为云征文|部署 Docker 的图形化管理工具 Portainer
    828华为云征文|部署Docker的图形化管理工具Portainer一、Flexus云服务器X实例介绍二、Flexus云服务器X实例配置2.1重置密码2.2服务器连接2.3安全组配置2.4Docker环境搭建三、Flexus云服务器X实例部署Portainer3.1Portainer介绍3.2Portainer部署3.3Portaine......
  • 828华为云征文|部署 Linux 服务器运维管理面板 1Panel
    828华为云征文|部署Linux服务器运维管理面板1Panel一、Flexus云服务器X实例介绍二、Flexus云服务器X实例配置2.1重置密码2.2服务器连接2.3安全组配置2.4Docker环境搭建三、Flexus云服务器X实例部署1Panel3.11Panel介绍3.21Panel部署3.31Panel使用四、总......
  • 【D3.js in Action 3 精译_024】3.4 让 D3 数据适应屏幕(上)
    当前内容所在位置(可进入专栏查看其他译好的章节内容)第一部分D3.js基础知识第一章D3.js简介(已完结)1.1何为D3.js?1.2D3生态系统——入门须知1.3数据可视化最佳实践(上)1.3数据可视化最佳实践(下)1.4本章小结第二章DOM的操作方法(已完结)2.1第一......
  • Python安装
    目录对于Linux和BSD用户对于Windows用户Python安装-CSDN博客Python操作符-CSDN博客Python基础学习-CSDN博客对于Linux和BSD用户如果你正在使用一个Linux的发行版比如Fedora或者Mandrake或者其他(你的选择),或者一个BSD系统比如FreeBSD,那么你可能已经在你的......
  • YOLOv8改进 - 注意力篇 - 引入ECA注意力机制
    一、本文介绍作为入门性第一篇,这里介绍了ECA注意力在YOLOv8中的使用。包含ECA原理分析,ECA的代码、ECA的使用方法、以及添加以后的yaml文件及运行记录。二、ECA原理分析ECA官方论文地址:ECA文章ECA的pytorch版代码:ECA的pytorch代码ECA注意力机制:深度卷积神经网络的高效通......
  • Python 基础学习
    目录字面意义上的常量数字符串单引号双引号三引号转义序列自然字符串字符串是不可变的字符串按字面意义连接变量标识符的命名数据类型对象Python安装-CSDN博客字面意义上的常量一个字面意义上的常量的例子是如同5、1.23、9.25e-3这样的数,或者如同’Thi......
  • Python 操作符
    你写的许多语句(逻辑行)会包含表达式。表达式的最简单的例子是2+3。表达式可以被分解成操作符和操作数。运算符的功能是完成某件事,它们由如+这样的符号或者其他特定的关键字表示。运算符需要数据来进行运算,这样的数据被称为操作数。在这个例子中,2和3是操作数。目录......
  • 免费高效!一款火爆的去水印工具席卷市场
            最近在市面上寻找一款能够去除水印的工具时,发现大部分软件都是收费的,而且没有找到一个能够完全满足我的需求的软件。因此,我决定自己开发一款去水印工具,以解决这一难题。        这款去水印工具的好处在于,它可以免费使用,让用户能够轻松、快捷地去除图......
  • git服务器私有化部署产品
    私有化部署的Git服务器产品有很多,以下是一些常见的选择:GitLab:GitLab是一个非常流行的开源代码托管平台,提供私有仓库、CI/CD工具、项目管理等功能。它可以被安装和部署在你自己的服务器上。GitHubEnterprise:GitHub提供的企业版服务,允许你在自己的数据中心或云环境中运行GitHub的......