首页 > 其他分享 >Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

时间:2024-09-02 17:15:11浏览次数:10  
标签:SeaTunnel 修复 Apache 连接器 2.3 Improve

file

我们欣喜地宣布,Apache SeaTunnel 2.3.7 版本现已正式发布!作为一个广受欢迎的下一代开源数据集成工具,Apache SeaTunnel 一直致力于为用户提供更加灵活、高效的数据同步和集成能力。此次版本更新不仅引入了如 LLM(大型语言模型)数据转换支持、增强的 SQL 支持和新连接器支持等多个新特性,还对现有功能进行了优化和改进,并修复了多个发现的问题。本文将详细介绍 Apache SeaTunnel 2.3.7 版本中的关键更新内容,并邀请更多的开发者和用户参与到我们的开源社区中来。

新增功能亮点

  1. LLM 数据转换支持:2.3.7 新版本中增加了对 LLM(大语言模型)数据转换的支持。这一特性将显著提升 Apache SeaTunnel 在处理复杂文本数据和自然语言处理任务中的应用能力,为前沿数据处理领域的用户提供了更大的便利。
    值得一提的是,我们在 2.3.6 版本添加了向量类型支持向量数据库写入,可加速人工智能应用程序的开发,并简化由 AI 驱动的应用程序工作负载的运作,已成为大模型时代的得力助手。为更好地支持 AI 开发,Apache SeaTunnel 2.3.6 版本添加了对向量数据库 Milvus的支持。这是 Apache SeaTunnel 支持的首个向量数据库,后续将扩展对其他向量数据库的支持,具体可参考《2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!》。

  2. 增强的 SQL 支持:此次版本为 SQL 增加了 CAST TO BYTES 功能,使数据类型转换更加灵活,用户在处理不同数据格式时,将拥有更多的选择,提升了数据处理的灵活性和可操作性。

  3. 阿里云 SLS 连接器支持: 此次更新新增了阿里云 SLS(阿里云日志服务)连接器。通过此功能,用户可以将数据直接导入到阿里云日志服务中,利用其强大的日志管理和分析能力。这一特性特别适用于需要实时日志监控和分析的用户场景。

  4. ActiveMQ Sink 连接器支持:支持 ActiveMQ 作为 Sink,进一步扩展了 SeaTunnel 的消息队列集成能力。ActiveMQ 是一个高性能的消息代理系统,此次新增的支持使得 Apache SeaTunnel 用户能够更方便地与 ActiveMQ 进行数据交换,尤其适合于数据流处理和实时数据分析的场景。

改进和优化

在功能优化方面,Apache SeaTunnel 2.3.7 同样带来了诸多改进,旨在提升系统的性能和稳定性。

  • Flink API 方法命名优化:改进了 Flink API 的方法命名规范,使得代码更加易读、易理解。这项优化不仅提升了开发体验,也减少了开发人员在使用 Flink 时可能遇到的困惑。

  • 增强的 API 合法性检查:新版增加了对 API 输入参数的合法性检查,确保了用户输入的配置和参数符合预期要求。这一改进减少了因配置错误导致的运行时异常,提升了系统的整体稳定性。

  • 多表 Sink 配置优化:对于需要处理多表输出的场景,2.3.7 进一步优化了 Sink 选项配置,使得用户在配置多表输出时更加便捷和高效。

  • OceanBase 支持优化:修复了 OceanBase 相关的兼容性问题,提升了 Apache SeaTunnel 在处理 OceanBase 数据库时的性能和稳定性。

关键问题修复

本次版本更新修复了多个关键问题,显著提升了系统的稳定性和用户体验。

  • MySQL-CDC 连接器修复:修复了在特定情况下,MySQL-CDC 连接器无法正常同步数据的问题。这个修复确保了使用 MySQL 数据源的用户能够更加可靠地进行数据同步操作。

  • Doris 连接器修复:解决了 Doris 连接器的一些关键性问题,增强了 Apache SeaTunnel 与 Doris 数据库的兼容性和性能,为使用 Doris 作为数据存储的用户提供了更好的支持。

  • Zeta 引擎任务停止问题修复:此次更新解决了 Zeta 引擎在某些情况下无法正常停止任务的 bug。这一改进防止了资源泄漏问题的发生,提高了系统的整体稳定性。

文档和社区贡献

我们深知,优秀的文档是用户成功使用 Apache SeaTunnel 的关键。在 2.3.7 版本中,我们对多个模块的文档进行了更新和修正,确保用户能够获得最准确和易懂的使用指南。

  • 文档更新和修正:此次版本更新对多个文档进行了修正,特别是 Oracle-CDC 等模块的使用文档。我们不仅修复了之前版本中存在的错误描述,还增加了更多的使用案例和操作指南,帮助用户更好地理解和使用 SeaTunnel。

  • 感谢社区贡献者:此次版本更新离不开社区的支持和贡献。我们特别感谢所有为 SeaTunnel 2.3.7 版本提交代码、报告问题和提出建议的贡献者。正是因为你们的无私奉献,Apache SeaTunnel 才能不断进步和成长。

本次具体更新如下:

新功能

Transforms-V2

  • [Feature] 拆分变换并将 JAR 移动到 connectors 目录 (#7218)
  • [Feature][LLM] 添加 LLM 变换 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函数 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿里云 SLS 连接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 连接器 (#7251)

功能改进

Core

  • [Improve][Flink] 优化方法名称 (#7372)
  • [Improve][API] 在发送到下游之前检查 catalog 表字段名的合法性 (#7358)
  • [Improve][Flink] 重构 Flink 代理源/汇 (#7355)
  • [Improve][API] 确保 TablePath 中的表名不为 null (#7252)
  • [Improve][Core] 基于插件名称改进查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表汇的选项检查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自动创建表时跳过所有索引以提高写入性能 (#7288)
  • [Improve][Doris] 改进 Doris 错误信息 (#7343)
  • [Improve][Jdbc] 删除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 创建表时合并用户配置的主键 (#7313)
  • [Improve][Jdbc] 优化检查数据库和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7319)
  • [Improve][SQL] 从输出字段中移除转义标识符 (#7297)
  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7264)

E2E

  • [Improve][Improve] 启用 Spark/Flink 的 fakesource E2E 测试 (#7325)
  • [Improve][Improve] 启用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 测试 (#7329)

Bug 修复

Connector-V2

  • [Hotfix][MySQL-CDC] 修复 MySQL binlog 读取时的 ArrayIndexOutOfBoundsException 异常 (#7381)
  • [Fix][Doris] 修复 Doris 主键顺序与字段顺序不一致的问题 (#7377)
  • [Bugfix][Doris] 修复 JSON 序列化时,空值导致的数据错误问题 (#7379)
  • [Hotfix][Jdbc] 修复 JDBC 编译错误 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 对 MySQL 驱动的依赖 (#7311)
  • [Fix][Tdengine] 修复连接 Taos 读取数据时的 SQL 异常和 ConcurrentModifyException 异常 (#6088)
  • [Hotfix][Kafka] 修复 Kafka 消费者日志的下次启动偏移量问题 (#7312)
  • [Fix][Doris] 修复 CDC 场景下删除数据的异常问题 (#7315)
  • [Hotfix][Hbase] 修复和优化 HBase 源问题 (#7148)
  • [Fix][Iceberg] 修复无法为标识符 'Iceberg' 创建源的问题 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修复由于锁定指标失败导致任务无法结束的问题 (#7357)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7292)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7280)

E2E

  • [Fix][Http] 修复 HTTP E2E 测试用例 (#7356)

文档

  • [Docs] 在 setup.md 中更改弃用的连接器名称 (#7366)
  • [Docs] 修复 SFTP 汇文档中的用户名参数错误 (#7334)
  • [Docs] 修复选择 OSS 作为检查点时的配置问题 (#7332)
  • [Docs] 修复 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修复混合集群部署文档显示错误 (#7306)
  • [Docs] 将事件监听器文档翻译成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代码 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

贡献者名单

特别感谢 wuchunfu 的主持发版工作,感谢下列社区成员对本次发版工作的贡献:

Carl-Zhou-CN
Hisoka-X
Jarvis
OswinWu
TyrantLucifer
XenosK
alextinng
asapekia
chaos-cn
corgy-w
dailai
dependabot[bot]
gdliu3
hailin0
hawk9821
jackyyyyyssss
liugddx
luzongzhu
q3356564
virvle
whhe
wuchunfu
xxsc0529
zhangshenghang

总结

Apache SeaTunnel 2.3.7 的发布,是我们持续提升产品性能和用户体验的重要一步。通过新增功能、优化现有功能以及修复已知问题,我们希望为用户提供更好的数据集成和处理体验。同时,我们也期待有更多的用户和开发者加入到 SeaTunnel 社区中来,共同推动这个开源项目的发展。

欢迎下载 SeaTunnel 2.3.7 版本,体验最新功能和改进。如果您在使用过程中有任何问题或建议,欢迎随时与我们联系。让我们一起,共同构建一个更加开放、强大、灵活的数据集成工具!

  • 如何参与贡献:您可以通过提交代码、报告问题、撰写文档等多种方式参与到 SeaTunnel 的开源社区中来。我们的 GitHub 页面上有详细的贡献指南,帮助您快速入门。

  • 加入我们的讨论:我们非常重视社区的声音,并鼓励大家在 GitHub Issue 页面、邮件列表和其他讨论渠道中分享您的想法和建议。您的每一个建议,都是我们改进和提升 Apache SeaTunnel 的宝贵财富。

本文由 白鲸开源 提供发布支持!

标签:SeaTunnel,修复,Apache,连接器,2.3,Improve
From: https://www.cnblogs.com/seatunnel/p/18393095

相关文章

  • Apache DolphinScheduler大规模任务调度系统对大数据实时Flink任务支持
    转载自神龙大侠我是用olphinScheduler3.2.1版本做源代码编译部署(部署方式参考我的另外一篇文档《源代码编译,ApacheDolphinScheduler前后端分离部署解决方案》)二进制文件部署本文也适用,只需要修改相对应的配置即可。资源管理底层基座替换成hdfsFlink程序jar包是在资源中心进......
  • PAT乙级 1019.游戏黑洞(测试点2.3.4.5)
    一、题目给定任一个各位数字不完全相同的4位正整数,如果我们先把4个数字按非递增排序,再按非递减排序,然后用第1个数字减第2个数字,将得到一个新的数字。一直重复这样做,我们很快会停在有“数字黑洞”之称的6174,这个神奇的数字也叫Kaprekar常数。例如,我们从6767开始,将......
  • Metasploit Pro 4.22.3-2024082201 (Linux, Windows) - 专业渗透测试框架
    MetasploitPro4.22.3-2024082201(Linux,Windows)-专业渗透测试框架Rapid7Penetrationtesting,releaseAug22,2024请访问原文链接:https://sysin.org/blog/metasploit-pro-4/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org世界上最广泛使用的渗透测试框架......
  • 如何优化 Apache Tomcat 上的接口性能
    为了更好地说明如何优化ApacheTomcat上的接口性能,我们将结合代码示例和一张简化的架构图来阐述优化方案。请注意,由于文本环境的限制,无法直接插入图片,但我将描述一张可能的架构图,并提供相应的代码示例。架构图描述假设我们有一个典型的三层架构应用,包括前端(Web层)、中间层(业务逻......
  • windows系统安装配置Apache Maven
    Date:2024.07.1709:45:10author:lijianzhan电脑环境:win10系统Java开发环境:JDK21Mvn:apache-maven-3.9.9maven下载地址:https://maven.apache.org/download.cgi点击链接进入ApacheMaven官网,选择apache-maven-3.9.9-bin.zip进行下载。下载maven安装包apac......
  • apache flink + Paimon  快速搭建指南
    ApachePaimon是一种湖格式,可以使用Flink和Spark构建实时湖屋架构,用于流式和批处理操作。Paimon创新性地将lake格式和LSM(日志结构合并树)结构相结合,将实时流式更新引入lake架构。Paimon提供以下核心功能:*实时更新:*主键表支持写入大规模更新,具有很高的更新性能,通常通过FlinkStre......
  • Apache顶级项目ShardingSphere — SQL Parser的设计与实现
    导语:SQL作为现代计算机行业的数据处理事实标准,是目前最重要的数据处理接口之一,从传统的DBMS(如MySQL、Oracle),到主流的计算框架(如spark,flink)都提供了SQL的解析引擎,因此想对sql进行精细化的操作,一定离不开SQLParser。ApacheShardingSphere是一套开源的分布式数据库中间件解决方......
  • Apache顶级项目ShardingSphere — SQL Parser的设计与实现
    导语:SQL作为现代计算机行业的数据处理事实标准,是目前最重要的数据处理接口之一,从传统的DBMS(如MySQL、Oracle),到主流的计算框架(如spark,flink)都提供了SQL的解析引擎,因此想对sql进行精细化的操作,一定离不开SQLParser。ApacheShardingSphere是一套开源的分布式数据库中间件解决方案......
  • MyBatis启动报Cause: org.apache.ibatis.builder.BuilderException: Error resolving
    mybatis-plus:**#搜索指定包别名,对指定报名下的所有实体进行Alias,就可以在mapper.xml中使用alias来设置parameterType参数**typeAliasesPackage:com.rcs.**.domain**#配置mapper的扫描,找到所有的mapper.xml映射文件,对该目录下的所有mapper.xml进行扫描装入Mappers......
  • 招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
    在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的Lambda架构提供业务报表、数据运营、个性推荐、风险控制等数据服务,而Lambda过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开发运维成本高昂等诸多问题。因......