Apache SeaTunnel数据处理引擎适配的演进和规划

时间：2024-08-21 15:48:22浏览次数：12

标签：SeaTunnel 适配 Flink 支持引擎 Apache 数据

file

作者 | Chao Tian (tyrantlucifer)，Apache SeaTunnel PMC Member

摘要

Apache SeaTunnel作为一个高性能数据同步工具，以其高效的数据处理能力，为数据集成领域带来了创新。在引擎上，Apache SeaTunnel除了支持自身的Zeta引擎外，还支持Spark和Flink。在2024年的CommunityOverCode Asia，Apache SeaTunnel PMC Member 田超在论坛上为大家介绍了Apache SeaTunnel基于Flink的演进历程、架构设计、核心特性，以及社区的当前进展和未来规划。以下为演讲核心内容整理：

Apache SeaTunnel基于Flink的演进历程

Apache SeaTunnel的演进主要体现在两个API版本上：

Flink API V1：SeaTunnel的初始API版本，与Flink的计算引擎紧密耦合，connector紧密依赖Flink接口。

file

Flink API V2：SeaTunnel的新一代API，所有的插件还是继承了plug-in的形式，但实现了与计算引擎的解耦；支持更多Flink版本；不依赖于Flink原生连接器，Sink增加了Writer、Committer和Aggregated Committer，Source增加了Reader、Split和Split Enumerator；降低了Flink升级的成本；并提供了更细粒度的接口，增强了系统的可扩展性，满足更多元化的数据源的同步需求。

file

基于Flink的架构设计

从Job运行的角度，Apache SeaTunnel的架构设计紧密依托于Flink的数据处理能力。

在Common API层，SeaTunnel做了插件的抽象化，基于插件的抽象化，SeaTunnel可以对接不同的计算引擎。

file

对接层在SeaTunnel中统称翻译层（Translation Layer）。针对Flink，SeaTunnel实现了Flink代理的Source、Sink和Transform，生成Flink引擎的Job graph后，以实现数据在Flink上高效转换和同步。

file

基于Flink好用的核心特性

市面上的数据同步工具很多，比如Apache Flink CDC、Chunjun等。

file

相比之下，Apache SeaTunnel展现了以下特点：

支持的Flink版本：SeaTunnel支持1.13及以上版本，提供更广泛的兼容性。
Flink连接器：SeaTunnel不依赖于Flink原生连接器，提供了更高的灵活性。
用户自定义指标：SeaTunnel允许用户定义自己的指标，增强了监控和分析能力。
数据转换支持：SeaTunnel支持数据的转换操作，包括但不限于映射、过滤等。
Flink-SQL：尽管目前SeaTunnel不支持Flink-SQL，但这是社区未来工作的重点之一。

Apache SeaTunnel基于Flink的特性和好用的功能，我们也来总结一下：

支持Flink原生的poll-push架构，可以实现实时获取分片数据，有效解决多并行度下的问题，最大化利用资源
支持 Flink原生的两阶段提交功能
支持Flink原生的用户自定义指标能力
支持使用Flink原生的global-accumulator记录数据同步作业详情
支持所有Flink作业提交模式（应用模式/会话模式）
支持枚举器和读取器之间用户定义的事件通信
支持Flink 1.13–1.18之间的所有版本

社区进展与未来规划

目前，Apache SeaTunnel社区正在积极推进以下工作：

多表读写支持：正在开发在Flink引擎上支持多表同时读写的功能，以支持一库多表读写，多表路由等场景，提高数据处理的效率和灵活性。目前，这一功能已在SeaTunnel Zeta引擎上实现。

file

Flink Proxy Source & Sink重构：当前，Flink Proxy数据的同步需要在Flink proxy Row和SeaTunnel Row数据格式之间进行多次转换，这样的转换不但会有数据精度损失的风险，还极大地降低了数据转化的性能。为此，社区正在进行源和接收器的重构工作，以优化性能和稳定性。

file

未来，社区还计划实现以下特性：

模式演化（Schema Evolution）：目前，SeaTunnel仅在Spark和Zeta引擎上支持模式演化功能，未来，社区计划在Flink上支持数据模式的动态变化，以适应不断变化的数据需求。

file

SQL转换支持：计划在Flink上支持SQL转换，包括选择投影、用户定义函数（UDF）、用户定义表函数（UDTF）和过滤条件等，以提供更丰富的数据处理能力。

file

结语

Apache SeaTunnel作为数据同步领域的一个创新工具，其基于Flink的高效数据处理能力，为数据集成带来了新的解决方案。社区的不断努力和创新，将使Apache SeaTunnel在未来的数据同步任务中发挥更大的作用。如需进一步了解或参与Apache SeaTunnel项目，欢迎加入社群参与讨论。

本文由白鲸开源提供发布支持！

标签：SeaTunnel,适配,Flink,支持,引擎,Apache,数据
From： https://www.cnblogs.com/seatunnel/p/18371816

从零到一，全面掌握Apache DolphinScheduler发版流程，实战派经验分享！
引言ApacheDolphinScheduler的发版流程对于确保软件质量和社区协作至关重要，社区Committer王兴杰为我们详细介绍了ApacheDolphinScheduler的发版流程，包括环境准备、流程文档、基础工具准备、依赖包确认等关键步骤，并指出了发版流程中可能会遇到的麻烦以及相应的解决方案，欢迎学习......
VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 标准版和厂商定制版，已适配主流品牌服务
VMwareESXi8.0U3macOSUnlocker&OEMBIOS标准版和厂商定制版ESXi8.0U3标准版，Dell(戴尔)、HPE(慧与)、Lenovo(联想)、Inspur(浪潮)、Cisco(思科)、Hitachi(日立)、Fujitsu(富士通)、NEC(日电)定制版、Huawei(华为)OEM定制版请访问原文链接：https://sysi......
Android 11.0 通过系统属性适配多种分辨率开机动画功能实现
1.前言在11.0的系统ROM定制化开发中，在关于开机动画这部分由于产品需要适配多种分辨率，所以就需要在出rom固件的时候，就需要根据系统属性来适配显示哪种分辨率开机动画，所以接下来就来看怎么设置系统属性，然后在开机动画阶段怎么实现这个功能2.通过系统属性适配多种分辨率开......
设计模式适配器模式
适配器模式适配器模式（Adapter）的定义如下：将一个类的接口转换成客户希望的另外一个接口，使得原本由于接口不兼容而不能一起工作的那些类能一起工作。适配器模式的结构适配器模式通常涉及以下几个角色：目标（Target）:定义客户端所期望的接口。适配者（Adaptee）:定义一个已经存在......
Linux系统的Apache2如何启动cgi模块(Ubuntu)
欢迎诸位来阅读在下的博文~在这里，在下会不定期发表一些浅薄的知识和经验，望诸位能与在下多多交流，共同努力!江山如画，客心如若，欢迎到访，一展风采文章目录环境1.**启用CGI模块**2.**配置CGI脚本目录**3.**配置CGI脚本**4.**测试CGI脚本**5.**访问CGI脚本**6.**调整S......
在linux上架设Web服务器Apache（Ubuntu）
欢迎诸位来阅读在下的博文~在这里，在下会不定期发表一些浅薄的知识和经验，望诸位能与在下多多交流，共同努力!江山如画，客心如若，欢迎到访，一展风采文章目录背景1.安装Apache2.启动和检查Apache服务3.配置防火墙4.配置虚拟主机5.启用虚拟主机并重启Apache6.配置域......
适配iOS18 Widget Extension控制中心新功能：ControlWidgetToggle和ControlWidgetButton
热烈欢迎，请直接点击！！！进入博主AppStore主页，下载使用各个作品！！！注：博主将坚持每月上线一个新app！！支持原创，博客园原文链接：https://www.cnblogs.com/strengthen/p/18362397文末可以有demo下载。首先查看WWDC2024的官方视频：WWDC2024将App控件扩展到系统级别：https://developer.apple......
IDEA日常爆红：Cannot resolve plugin org.apache.maven.plugins:maven-war-plugin
一、在写这篇文章之前，我面对这些爆红，第一时间去寻找AI帮助，这些人工智障千篇一律地回答几乎让我奔溃！！终于还是在csdn上找了解决方法，报错问题去csdn还是很不错的选择。以下是解决办法：二、①.在 setting.xml 文件中的镜像源，首先找到这个标签②.在上面标签中插入以下代码<!--......
md-editor-v3适配VUE3的MarkDown编辑器-好用-简单-免费
官方文档：https://imzbf.github.io/md-editor-v3/zh-CN/indexhttps://imzbf.github.io/md-editor-v3/zh-CN/index效果演示：（支持黑暗模式切换）toolbar包括：['bold','underline','italic','strikeThrough','title',......
【问题记录】【Apache Camel】Apache Camel 报 413Request Entity Too Large
1 前言ApacheCamel不知道大家有没有用过。它是一个基于企业应用集成模式（EIP）的强大开源集成框架。能够快速、轻松地集成，用于在各种系统之间消费或生产数据。说白了可以用于系统之间的不同方式的交互支撑。最近出现一个问题，来记录一下。2 问题现象有客户反应说一个单子卡......

Apache SeaTunnel数据处理引擎适配的演进和规划

摘要

Apache SeaTunnel基于Flink的演进历程

基于Flink的架构设计

基于Flink好用的核心特性

社区进展与未来规划

结语

相关文章

赞助商

阅读排行