首页 > 其他分享 >ETL可视化工具 DataX -- 简介( 一)

ETL可视化工具 DataX -- 简介( 一)

时间:2024-06-16 21:00:57浏览次数:12  
标签:同步 1.1 -- 数据源 Framework DataX 数据 ETL

引言

DataX 系列文章:

1.1 DataX

1.1.1 Data X概览

DataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

在这里插入图片描述
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

1.1.2 DataX3.0框架设计

在这里插入图片描述
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

1.1.3 DataX3.0插件体系

数据源类型数据源名称Reader(读)Writer(写)备注
RDBMS 关系型数据库MySQL读、写
Oracle读、写
OceanBase读、写
SQLServer读、写
PostgreSQL读、写
DRDS读、写
达梦读、写
通用RDBMS(支持所有关系型数据库)读、写
阿里云数仓数据存储ODPS读、写
ADS
OSS读、写
OCS读、写
NoSQL 数据存储OTS读、写
Hbase 0.94读、写
Hbase 1.1读、写
MongoDB读、写
Hive读、写
无结构化数据存储TxtFile读、写
FTP读、写
HDFS读、写
Elasticsearch

1.1.4 DataX3.0六大核心优势

1、可靠的数据质量监控
1)完美解决数据传输个别类型失真问题
2)提供作业全链路的流量、数据量运行时监控
3)提供脏数据探测
2、丰富的数据转换功能
3、精准的速度控制
4、强劲的同步性能
5、健壮的容错机制
6、极简的使用体验

1.2 DataX-Web

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发,可根据时间、自增主键增量同步数据。
任务"执行器"支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU、内存、负载的监控等等。数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。

在这里插入图片描述
简单来说用户可以通过图形化web,构建DataX Json,可以轻松调度各Job启停,DataX-Web也提供了诸如阻塞处理、超时警告等等功能辅助生产,对于少量数据同步任务,DataX-Web完全可以胜任,并且大大减少了工作量。

标签:同步,1.1,--,数据源,Framework,DataX,数据,ETL
From: https://blog.csdn.net/dazhong2012/article/details/139668588

相关文章

  • [安洵杯 2019]easy_serialize_php1
    知识点:1.php代码审计       2.序列化与反序列化       3.键值对逃逸进入之后开始代码审计~<?php$function=@$_GET['f'];functionfilter($img){$filter_arr=array('php','flag','php5','php4','fl1g'......
  • 确保业务一致性:幂等性设计在分布式系统中的实现策略
    一、什么是幂等性?幂等性(Idempotence)是计算机科学和数学中的一个概念,指的是一个操作或者函数,无论执行多少次,其效果和执行一次都是相同的。换句话说,重复执行这个操作不会对系统状态产生额外的影响。在不同的领域,幂等性有不同的应用和表现:在编程中幂等性通常用于描述方法或......
  • 【Nginx】Nginx部署前端静态资源
    打包部署我们的前端工程开发好了,但是我们需要发布,那么如何发布呢?主要分为2步:前端工程打包通过nginx服务器(点击下载Nginx)发布前端工程1前端工程打包接下来我们先来对前端工程进行打包我们直接通过VSCode的NPM脚本中提供的build按钮来完整,如下图所示,直接点击即可:然后会......
  • SM4 CFB算法实现详解(七)
    1、SM4CFB说明  CFB(CipherFeedback,密文反馈)模式是一种将块密码(如SM4)转换为流密码的模式。CFB模式将前一个加密块的密文作为当前加密块的输入,同时产生密钥流来加密数据。该模式适用于流式数据传输。2、SM4-CFB模式的优点不需要填充由于CFB模式是流模式,不需要对数......
  • 代码随想录算法训练营第36期 last day
    最后一次更新,之后去复习专业课和简历583两个字符串的删除操作自己做出来了:Code:class Solution {public://找到公共子序列的最大长度dp 最小步数=串1.size-dp+串2.size-dp    int minDistance(string word1, string word2) {        vector<vector<int......
  • 【flink实战】flink-connector-mysql-cdc导致mysql连接器报类型转换错误
    文章目录一.报错现象二.方案二:重新编译打包flink-connector-cdc1.排查脚本2.重新编译打包flink-sql-connector-mysql-cdc-2.4.0.jar3.测试flink环境三.方案一:改造flink连接器一.报错现象flinksql任务是:mysql到hdfs的离线任务,flink在消费mysql时报如上错误......
  • 输入输出流与文件操作
    1.读+写,拷贝代码:importjava.io.*;publicclassFileRW_Test{publicstaticvoidmain(String[]args)throwsIOException{StringA_Path="..\\bin\\谷歌浏览器页面翻译恢复详细流程.txt";StringB_Path="D:\\ProgramFiles\\Java\\jdk......
  • 小红书涨粉攻略:全面提升粉丝数量的六大法宝
    前言......
  • CSS 实现电影信息卡片
    CSS实现电影信息卡片效果展示CSS知识点CSS综合知识运用页面整体布局<divclass="card"><divclass="poster"><imgsrc="./poster.jpg"/></div><divclass="details"><imgsrc="./avtarlogo.......
  • CSS 实现个人资料卡
    CSS实现个人资料卡效果展示CSS知识点CSS综合知识运用页面整体布局<divclass="card"><divclass="imgBox"><imgsrc="./bg.jpg"/></div><divclass="content"><divclass="details"&g......