首页 > 数据库 >SeaTunnel DB2 Source Connector 使用文档(含详细操作步骤)

SeaTunnel DB2 Source Connector 使用文档(含详细操作步骤)

时间:2024-04-02 16:25:20浏览次数:29  
标签:DB2 SeaTunnel jdbc column 数据源 partition Connector db2 操作步骤

DB2是IBM的一款关系型数据库管理系统,JDBC DB2 Source Connector是一个用于通过JDBC读取外部数据源数据的连接器。Apache SeaTunnel如何支持JDBC DB2 Source Connector?请参考本文档。

支持引擎

Spark
Flink
SeaTunnel Zeta引擎

主要特性

  • 批处理(batch)
  • 精确一次(exactly-once)
  • 列投影(column projection)
  • 并行处理(parallelism)
  • 支持用户自定义分割(support user-defined split)

它支持查询SQL并可以实现投影效果。

描述

通过 JDBC 读取外部数据源数据。

支持数据源

数据源 支持版本 驱动程序 URL Maven
DB2 不同的依赖版本有不同的驱动程序类。 com.ibm.db2.jdbc.app.DB2Driver jdbc:db2://127.0.0.1:50000/dbname Download

数据库依赖

数据库依赖需要下载对应'Maven'的支持列表并复制到'$SEATNUNNEL_HOME/plugins/jdbc/lib/'工作目录。
例如,DB2数据源:cp db2-connector-java-xxx.jar $SEATNUNNEL_HOME/plugins/jdbc/lib/

数据类型映射

DB2数据类型 SeaTunnel数据类型
BOOLEAN BOOLEAN
SMALLINT SHORT
INT
INTEGER
INTEGER
BIGINT LONG
DECIMAL
DEC
NUMERIC
NUM
DECIMAL(38,18)
REAL FLOAT
FLOAT
DOUBLE
DOUBLE PRECISION
DECFLOAT
DOUBLE
CHAR
VARCHAR
LONG VARCHAR
CLOB
GRAPHIC
VARGRAPHIC
LONG VARGRAPHIC
DBCLOB
STRING
BLOB BYTES
DATE DATE
TIME TIME
TIMESTAMP TIMESTAMP
ROWID
XML
Not supported yet

源选项

名称 类型 必需 默认 描述
url String Yes - JDBC连接的URL。参考案例:jdbc:db2:127.0.0.1:50000/dbname
driver String Yes - 用于连接到远程数据源的jdbc类名。如果你使用db2,值是com.ibm.db2.jdbc.app.DB2Driver
user String No - 连接实例用户名
password String No - 连接实例密码
query String Yes - 查询语句
connection_check_timeout_sec Int No 30 用于验证连接到完成以等待数据库操作的时间(以秒为单位)
partition_column String No - 用于并行处理的分区列名,仅支持数值类型,仅支持数值类型主键,并且只能配置一个列。
partition_lower_bound Long No - partition_column的扫描最小值,如果未设置,SeaTunnel将查询数据库获取最小值。
partition_upper_bound Long No - partition_column的扫描最大值,如果未设置,SeaTunnel将查询数据库获取最大值。
partition_num Int 可选 作业并行度 分区计数的数量,仅支持正整数。默认值为作业的并行度。
fetch_size Int 可选 0 对于返回大量对象的查询,您可以配置在查询中使用的行抓取大小,以提高性能,减少满足选择条件所需的数据库访问次数。零表示使用 JDBC 的默认值。
common-options 可选 - 源插件的通用参数,请参考 Source Common Options 获取详细信息。

提示

如果未设置 partition_column,则将以单一并发方式运行;如果设置了 partition_column,则根据任务的并发度并行执行。

任务示例

简单示例:

此示例在单一并发模式下查询您的测试数据库中类型为 'table' 的 16 条数据,并查询其所有字段。您还可以指定要查询的最终输出到控制台的字段。

# Defining the runtime environment
env {
  # You can set flink configuration here
  execution.parallelism = 2
  job.mode = "BATCH"
}
source{
    Jdbc {
        url = "jdbc:db2://127.0.0.1:50000/dbname"
        driver = "com.ibm.db2.jdbc.app.DB2Driver"
        connection_check_timeout_sec = 100
        user = "root"
        password = "123456"
        query = "select * from table_xxx"
    }
}

transform {
    # If you would like to get more information about how to configure seatunnel and see full list of transform plugins,
    # please go to https://seatunnel.apache.org/docs/transform-v2/sql
}

sink {
    Console {}
}

并行示例:

如果想要读取整个表,可以根据您配置的分片字段和分片数据,在并行方式下读取查询表。

source {
    Jdbc {
        url = "jdbc:db2://127.0.0.1:50000/dbname"
        driver = "com.ibm.db2.jdbc.app.DB2Driver"
        connection_check_timeout_sec = 100
        user = "root"
        password = "123456"
        # Define query logic as required
        query = "select * from type_bin"
        # Parallel sharding reads fields
        partition_column = "id"
        # Number of fragments
        partition_num = 10
    }
}

并行边界:

在查询中指定数据的上限和下限边界更加高效。根据您配置的上限和下限边界来读取您的数据源,效率更高。

source {
    Jdbc {
        url = "jdbc:db2://127.0.0.1:50000/dbname"
        driver = "com.ibm.db2.jdbc.app.DB2Driver"
        connection_check_timeout_sec = 100
        user = "root"
        password = "123456"
        # Define query logic as required
        query = "select * from type_bin"
        partition_column = "id"
        # Read start boundary
        partition_lower_bound = 1
        # Read end boundary
        partition_upper_bound = 500
        partition_num = 10
    }
}

标签:DB2,SeaTunnel,jdbc,column,数据源,partition,Connector,db2,操作步骤
From: https://www.cnblogs.com/seatunnel/p/18110825

相关文章

  • PLC通过modbus转profinet网关连接湿度传感器操作步骤
    Modbus转Profinet网关可以连接不同系统和设备,有些现场需要实时监测环境参数,但大由于当时环境仪表设备不能达到直连效果,通过Modbus转Profinet网关,湿度传感器的数据可以被准确、可靠地传输到监控系统中,为生产运作提供全面的数据支持。  Modbus转Profinet网关接湿度传感器的操作......
  • Kafka Connect 自定义Sink Connector实现在数据同步时增加时间戳字段和假删除功能
    1.情景展示以debezium为例,结合kafka很容易就能实现两个数据库表与表之间的数据同步问题。但是,现在甲方有这样的需求:其一,在源表数据同步至目标表时,目标表增加一个时间戳字段(就是我们通常意义上讲的last_update_time),无论是insert还是update操作,都在此字段插入系统当前时间。用......
  • .lastUpdated:The POM for mysql:mysql-connector-java:jar:8.1.0 is missing, no depe
    描述:在IDEA中,出现该类报错,查看本地仓库中项目对应的jar包存在,却无法获取时,可能是文件中生成.lastUpdated文件或有remote.repositories文件导致的。.lastUpdated:在更新maven项目的时候,每一个jar包路径下的_remote.repositories文件都会同setting.xml中设置的仓库地址id......
  • Flink 自定义 ClickHouse Table Connector 的简单实现
    本次实现基于Flink1.18版本,具体的对象之间的关系可以先参考官网的图:先拿官网上的Socket示例来说一下实现过程:首先编写SocketDynamicTableFactory实现DynamicTableSourceFactory接口。在SocketDynamicTableFactory中会返回SocketDynamicTableSource,同时返回实现......
  • Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例
    Seatunnel系列之:ApacheIcebergsinkconnector和往Iceberg同步数据任务示例一、支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七、Sink选项八、往Iceberg同步数据任务示例一、支持的Iceberg版本1.4.2二......
  • 使用 SPL 高效实现 Flink SLS Connector 下推
    作者:潘伟龙(豁朗)背景日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务,基于日志服务的便捷的数据接入能力,可以将系统日志、业务日志等接入SLS进行存储、分析;阿里云Flink是阿里云基于ApacheFlink构建的大数据分析平台......
  • linux空磁盘挂载到指定目录操作步骤
    linux磁盘挂载1、检查硬盘分区情况:fdisk-l 或 lsblk如图所示:/dev/sdb磁盘还未分区2、给新硬盘添加分区执行fdisk/dev/sdb按照下面步骤依次输入指令3、格式化分区类型mkfs.xfs/dev/sdb14、查看格式化后的所有文件系统类型blkid5、将新建分区挂载到指定目录m......
  • 智慧安防视频监控平台EasyCVR通道播放支持添加水印及操作步骤介绍
    智慧安防视频监控平台EasyCVR采用了开放式的网络结构,系统可支持的接入协议包括:国标GB28181、RTSP/Onvif、RTMP,以及厂家的私有协议与SDK,如:海康ehome、海康sdk、大华sdk、宇视sdk、华为sdk、萤石云sdk、乐橙sdk等,兼容各品牌的IPC、NVR、移动手持终端、执法仪、布控球、无人机等设备......
  • SeaTunnel Web 在Ubuntu环境的安装
    SeaTunnelWeb在Ubuntu环境的安装目录SeaTunnelWeb在Ubuntu环境的安装下载软件测试SeaTunnel任务下载连接器启动客户端模式配置web元数据库配置Web应用配置JAVA_HOME配置SEATUNNEL_HOME添加MySQL驱动添加连接器到Web启动服务页面测试下载软件下载SeaTunnel二进制文件下载......
  • 实现阿里云模型服务灵积 DashScope 的 Semantic Kernel Connector
    SemanticKernel内置的IChatCompletionService实现只支持OpenAI与AzureOpenAI,而我却打算结合DashScope(阿里云模型服务灵积)学习SemanticKernel。于是决定自己动手实现一个支持DashScope的SemanticKernelConnector——DashScopeChatCompletionService,实现......