首页 > 其他分享 >Flink CDC介绍:基于流的数据集成工具

Flink CDC介绍:基于流的数据集成工具

时间:2024-09-24 16:51:06浏览次数:3  
标签:集成 Pipeline CDC Flink Apache 数据

Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。 Flink CDC 在任务提交过程中进行了优化,并且增加了一些高级特性,如表结构变更自动同步(Schema Evolution)、数据转换(Data Transformation)、整库同步(Full Database Synchronization)以及 精确一次(Exactly-once)语义。

Flink CDC 深度集成并由 Apache Flink 驱动,提供以下核心功能:

  • ✅ 端到端的数据集成框架
  • ✅ 为数据集成的用户提供了易于构建作业的 API
  • ✅ 支持在 Source 和 Sink 中处理多个表
  • ✅ 整库同步
  • ✅具备表结构变更自动同步的能力(Schema Evolution),

如何使用 Flink CDC

Flink CDC 提供了基于 YAML 格式的用户 API,更适合于数据集成场景。以下是一个 YAML 文件的示例,它定义了一个数据管道(Pipeline),该Pipeline从 MySQL 捕获实时变更,并将它们同步到 Apache Doris:

source:
  type: mysql
  hostname: localhost
  port: 3306
  username: root
  password: 123456
  tables: app_db.\.*
  server-id: 5400-5404
  server-time-zone: UTC

sink:
  type: doris
  fenodes: 127.0.0.1:8030
  username: root
  password: ""
  table.create.properties.light_schema_change: true
  table.create.properties.replication_num: 1

pipeline:
  name: Sync MySQL Database to Doris
  parallelism: 2

通过使用 flink-cdc.sh 提交 YAML 文件,一个 Flink 作业将会被编译并部署到指定的 Flink 集群。 请参考 核心概念 以获取 Pipeline 支持的所有功能的完整文档说明。

编写你的第一个 Flink CDC Pipeline

浏览 Flink CDC 文档,开始创建您的第一个实时数据集成管道(Pipeline)。

快速开始

查看快速入门指南,了解如何建立一个 Flink CDC Pipeline:

理解核心概念

熟悉我们在 Flink CDC 中引入的核心概念,并尝试构建更复杂的数据Pipeline:

提交 Pipeline 到 Flink 集群

了解如何将 Pipeline 提交到运行在不同部署模式下的 Flink 集群:

开发与贡献

如果您想要将 Flink CDC 连接到您定制化的外部系统,或者想要为框架本身做出贡献,以下这些部分可能会有所帮助:


links:

项目介绍 | Apache Flink CDC
Flink CDC 3.0 正式发布,详细解读新一代实时数据集成框架
基于 Flink SQL CDC 的实时数据同步方案

标签:集成,Pipeline,CDC,Flink,Apache,数据
From: https://blog.csdn.net/a772304419/article/details/142494217

相关文章

  • 字段映射和数据转换为什么是数据集成的关键?
    在数字化时代,数据集成成为企业决策和业务运营的基石。然而,不同数据源之间的字段命名和数据类型差异,常常让数据集成变得复杂而具有挑战性,如何解决这类问题,让数据集成更高效呢?本文将探讨数据集成中的两大关键主题:字段映射和数据转换。对字段映射和数据转换进行解释,同时将分析这......
  • React 入门第九天:与后端API的集成与数据管理
    在React学习的第九天,我集中学习了如何与后端API进行集成。这一步是将静态的React应用转变为动态、可交互的关键。通过与后端通信,我们可以从服务器获取数据、发送用户输入以及处理复杂的业务逻辑。1.使用fetch进行数据请求React没有内置的HTTP库,因此我们通常使用浏览器提供的fetch......
  • 尚硅谷-flink
    一、介绍1.简介flink是一个开源的分布式流处理框架优势:高性能处理、高度灵活window操作、有状态计算的Exactly-once等详情简介,参考官网:https://flink.apache.org/flink-architecture.html中文参考:https://flink.apache.org/zh/flink-architecture.......
  • EtherCAT(以太网控制自动化技术)协议以其高带宽、低延迟特性,在工业自动化领域占据重要地
    一、MR30分布式IO模块概述EtherCAT(以太网控制自动化技术)协议以其高带宽、低延迟特性,在工业自动化领域占据重要地位。明达技术自主研发的MR30分布式IO模块作为EtherCAT协议的杰出应用,集成了多种输入输出功能,通过EtherCAT总线实现与主站的高效通信与控制,为纸巾包装行业带来革新。二、......
  • 2024年系统集成项目管理工程师考试大纲
    一、系统集成项目管理工程师系统集成项目管理工程师,属于计算机技术与软件(中级)专业技术资格。二、考试说明(一)考试目标通过本考试的合格人员能够具备管理系统集成项目的能力;了解信息技术及其服务创新的相关知识;掌握信息系统集成的工程技术方法;掌握系统集成项目管理的知识体系;能够综合......
  • 艾体宝产品丨无需代码开发!Redis数据集成助你轻松优化数据库​
    我们不仅致力于加速应用程序的构建过程,更专注于助力您达成最终目标——实现应用的高效运行。因此,我们欣然宣布,Redis数据集成(RedisDataIntegration,RDI)(https://redis.io/data-integration/)已经正式发布。RDI是一款专为实现实时数据同步至Redis而设计的工具,旨在减轻您构建自......
  • flink 大批量任务提交 yarn 失败问题
    问题现象用户迁移到新集群后,反馈他们开发平台大量flink任务提交失败了,当时集群的yarn资源是足够的排查过程用户是在他们的开发平台上提交的,查看他们失败的任务,发现是他们提交端主动Kill的,接着沟通发现他们提交平台有个逻辑就是提交到yarn的flink任务,如果在2......
  • 仅需一篇,吃透持续集成对 IT 团队和企业的好处
    对于各行各业的公司而言,软件是关键的竞争优势。公司越快地将新的增强功能和特性推向市场,所获得的竞争优势就越大。为了获得这种领先优势,企业开发团队需要优化其工作流程以提高效率、质量和可靠性。因此,开发团队采用持续集成(CI)来加速和自动化软件交付生命周期。CI是持续交付(CD)不......
  • SW1125 集成氮化镓的高频准谐振模式反激变换
    SW1125是一款集成650VGaN的针对离线式反激变换器的高性能高集成度准谐振电流模式PWM变换器。芯片集成有700V高压启动电路、线电压掉电检测和X电容放电功能。SW1125工作于带谷底锁定功能的谷底开启模式,同时集成频率抖动功能以优化EMI性能;当负载降低时,芯片从P......
  • arm各个集成开发环境+rvds4.1
    ARM之各集成开发环境(IDE)说明(Keil、RVDS、ADS、DS-5、MDK)-xiaoheikkkk-博客园(cnblogs.com)  最近,ARM官网进行了较大的改版,原来很多老工具可以免费下载(付费使用),但是改版后需要有购买凭证才可以下载!部分旧工具(补丁)的具体下载地址为https://silver.arm.com,最新的工具在官网......