【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow

时间：2022-10-07 17:04:26浏览次数：87

标签：airflow Streamset Kettle 调度支持同步数据源工具数据

〇、概述

1、常用资料

dolphinscheduler用户手册：https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/system-manual.html

airflow官方文档：airflow.apache.org

2、理解

数据从多个异构数据源加载到数据库或其他目标地址

3、选型

（1）ETL

Kettle

Streamset

（2）同步

DataX

Sqoop

Canel

（3）调度

DolphinSchedule

Azkaban

Oozie on Hue

Airflow

一、ETL

（一）Kettle

1、简介

Spoon图形化界面操作

支持的数据源丰富，但支持的数据源不主流

kettle是做数据清洗，转换工作的工具

2、组成

（1）转换Transformation：多个数据源输入

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_hadoop

各种各样的输入（HDFS、parquet、HBASE输入）、转换和输出（如HDFS、parquet、HBASE、表输出或数据同步功能）【dolphinschedule需要集成datax插件做数据同步】

（2）作业Job：循环成圈，可以包含作业或转换

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_hadoop_02

3、kettle调用

（1）API方式调用kettle

http://www.kettle.net.cn/2230.html

（2）集成平台

构建定时调度任务

4、优化

spoon脚本

调大JVM内存大小

线程堆栈大小

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms2048m" "-Xmx2048m" "-XX:MaxPermSize=256m"

增大缓存

使用数据库连接池

提高批处理的commit size

避免使用update , delete操作，尤其是update,如果可以把update变成先delete, 后insert；

（二）Streamset

大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。

数据源支持MySQL、Oracle等结构化和半/非结构化，目标源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等

创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分

二、同步

（一）DataX

通过脚本调用Python2，再解析JSON文件

对数据库压力小，全量速度快，适合做数据同步工作

不支持增量同步

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_hadoop_03

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_数据源_04

（二）Sqoop

Sqoop，SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_hadoop_05

（三）Canel

基于数据库增量日志解析，提供增量数据实时订阅和消费，目前主要支持了MySQL，也支持mariaDB。

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_数据源_06

三、调度

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_hadoop_07

（一）DolphinSchedule

支持传统的shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process【兼容传统与大数据】

通过拖拽来绘制DAG

（二）Azkaban

hadoop的job调度，适合shell脚本，当job不多的时候，可以使用

Azkaban支持直接传参，例如${input}。

（三）Oozie on Hue

hadoop可视化平台Hue的插件

Cloudera公司，需要预先将规则定义在workflow.xml中

Oozie支持参数和EL表达式，例如${fs:dirSize(myInputDir)}

（四）Airflow

是apache的一个顶级开源项目由python编写

ariflow功能比azkaban完整强大

airflow在部署运维以及使用上要比azkaban复杂，成本高

将工作流编写任务的有向无环图(DAG)

通过airflow webserver -p 8080 -D启动web服务，通过airflow scheduler -D启动调度

通过编写python文件和配置文件，执行python文件中对应的任务

查看所有dag任务：airflow list_dags

【大数据工具选型】ETL&同步&调度工具比较-Kettle、Streamset，DataX、Sqoop、Canel，DolphinSchedule、Azkaban、Oozie、Airflow_数据源_08

作者：哥们要飞

标签：airflow,Streamset,Kettle,调度,支持,同步,数据源,工具,数据
From： https://blog.51cto.com/liujinhui/5734651

UML建模工具更新情况（三）
UMLChina整理的UML建模工具列表请见http://www.umlchina.com/tools/search.aspx最近一段时间更新：工具最新版本：Gliffy更新时间：2020年1月27日工具简介在线绘图工具，支持UML。平......
教你开发一个JS代码加密工具
教你开发一个JS代码加密工具作者：JShaman.comw2sft本文，教你开发一个JS代码加密工具。工具可实现：把正常的JS代码，转化为加密代码，并且加密后的JS代码能直接运行。效果展示加密......
UML建模工具最近更新（-2022年4月）共12款：Papyrus、StarUML、Software Ideas Modeler
DDD领域驱动设计批评-文集-点击查看>>《软件方法》强化自测题集-点击查看>>UMLChina整理的UML建模工具列表请见http://www.umlchina.com/tools/search.aspx......
UML建模工具最近更新（截至2022年3月）（1）Astah、diagrams.net……
DDD领域驱动设计批评-文集-点击查看>>《软件方法》强化自测题集-点击查看>>UMLChina整理的UML建模工具列表请见http://www.umlchina.com/tools/search.aspx......
Kettle学习
Kettle的安装及简单使用一、kettle概述1、什么是kettleKettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。2、Kettl......
UML建模工具更新情况（2019下半年-2020）（一）
工具最新版本：EnterpriseArchitect15.1RC更新时间：2020年1月9日工具最新版本：VisualParadigmforUML16.1更新时间：2019年12月2日工具最新版本：AstahUML8.2......
UML建模工具更新情况（2019下半年-2020）（二）
工具最新版本：BOUML7.9更新时间：2019年7月15日工具最新版本：SinelaboreRT4.0更新时间：2019年9月工具最新版本：SoftwareIdeasModeler12.06更新时间：2020年1月10日工具最新版本......
【软件下载】Excel下载 word下载官方官网下载原始镜像开发工具【开发软件下载】
原文：刘贵庆博客-软件下载官网下载地址：www.liuguiqing.com.cn 微软官网：https://www.microsoft.com/......
提升文字工作效率的工具
提升文字工作效率的工具每天和文字打交道，一直在想办法提升自己文字工作的效率。给大家推荐几款App，都是亲测好友能够提升文字工作效率的工具。排名不分先......
好用的工具
1、替代notepad++的文本编辑器NotepadNext>wingetinstalldail8859.Notepadnext已找到NotepadNext[dail8859.NotepadNext]版本0.5.5......