首页 > 其他分享 >WhaleStudio Demo:如何从Aurora CDC 实时数据同步到Redshift详细演示

WhaleStudio Demo:如何从Aurora CDC 实时数据同步到Redshift详细演示

时间:2024-12-11 14:44:05浏览次数:5  
标签:同步 CDC Demo Aurora Redshift 数据 我们

视频演示:https://weixin.qq.com/sph/AQ0oGKk12

今天我将向大家详细介绍 如何使用 WhaleStudio 将数据从 Aurora CDC(Change Data Capture)实时同步至 Redshift 的功能。这是一个强大的数据同步功能,它支持多种数据源,包括文件、非结构化数据以及多样化的接口。

数据支持范围

首先,WhaleStudio 支持的数据类型非常广泛,涵盖了约 200 种(视频种 160 多种为口误)不同的数据源。无论是结构化还是非结构化的数据,我们都能够进行有效的处理和同步。

开启CDC功能

在我们开始数据同步之前,有一个重要的步骤需要完成,那就是开启 CDC 的 Binlog 功能。这是因为我们的工作流程是基于读取 Binlog 来进行的。一旦成功连接到 Binlog,就可以继续进行下一步操作。

数据同步流程

接下来,我们将进入项目管理,创建实施的任务定义。这里我们支持多表同步,这意味着我们可以同时处理多个数据表的同步工作。

数据源

Source 指的是数据的来源。我们在这里选择 Aurora CDC,大家可以根据需要选择提前创建的数据源和数据库。

数据分片

在处理大量数据时,我们可能需要关注数据的分片能力。例如,如果有几十亿条数据,我们需要根据数据量进行切片处理。Aurora CDC 支持数据分片,以更好地处理数据,包括主键等信息。这对于处理大量数据时尤为重要,因为它可以帮助我们更有效地管理和同步数据。具体可以参考视频中所示的配置。

数据类型转换与目标设置

在数据同步过程中,我们需要将数据转换成 SeaTunnel 的数据类型,因为不同数据库的数据类型需要统一。这是一个模型推演,Sink 指的是数据的目的地。我们可以自定义表名,例如,源表名为 A,目标表名为 B。同时,我们可以使用内置变量来保持表名在多表同步时的一致性。

数据同步配置中有两个重要的部分:表结构处理方式和数据处理方式。

表结构处理方式

  • 如果表不存在,我们将创建表。
  • 如果表存在,我们可以选择删除并重建表,或者跳过不处理。

数据处理方式

  • 直接删除数据。
  • 保持表结构并删除数据。

我们还可以自定义路径和临时路径,因为每次写入都会先写到临时文件中,然后再加载,这是对 Redshift 数据库来说最快的方式。

任务运行与数据检验

设置完成后,我们可以进行数据同步。选择运行任务的工作流程,我们可以查看任务是否已经运行,以及读取了多少数据。例如这里,我们已经读取了1,460条数据。

实时数据插入

为了演示,我们来插入更多的数据,因为 CDC 任务可以实时读取数据。通过 SQL 任务,我们试试看插入 100 条数据,并检查 Redshift 中最终的数据量,以进行数据质量检验。

结果验证

运行任务后,我们可以检查工作流中的日志,查看读取了多少数据。这里可以看到,数据已经成功插入。
通过 Demo 我们可以了解到,WhaleStudio 数据同步的功能非常丰富,欢迎大家尝试使用,有意向者可添加小助手咨询详细信息。

file

本文由 白鲸开源 提供发布支持!

标签:同步,CDC,Demo,Aurora,Redshift,数据,我们
From: https://www.cnblogs.com/seatunnel/p/18599571

相关文章

  • 二、locust --locust_demo
    #*_*coding:utf-8*_*#@Author:zyb#HttpUser:保持会话。FastHttpUser:高性能fromlocustimportTaskSet,task,HttpUser,FastHttpUser,between,constant_throughput,constant_pacing,constant#argument_parser这个可以修改执行参数的fromgevent._semaphoreimpo......
  • OSG开发笔记(三十八):osg3.0.0基于windows平台msvc2017x64编译器编译并移植Demo
    前言  本篇编译osg3.3.0的msvc2017x64版本,验证书中的从相机demo。 OSG编译步骤一:下载解压  下载版本,由于官方的其他路径没有直接给出3.0.0,需要自己切换分支,代码地址:https://github.com/openscenegraph/OpenSceneGraph/tree/OpenSceneGraph-3.6.4  然后:  ......
  • Mvc项目利用Quartz实现定时调度Demo
    1、创建MVC项目(StudyQuartz),如下图显示 2、mvc项目安装Quartz库,有两种方式1)通过“程序包管理控制台”(视图-->其他窗口-->程序包管理器) 输入“Install-PackageQuartz”完成安装2)通过NuGet包管理器 在浏览输入“Quartz”,下载最新版本到项目中 3、利用Quartz实现定......
  • Mysql索引失效问题demo
    Mysql索引失效问题demo#1.准备工作CREATETABLE`user`(`id`INTNOTNULLAUTO_INCREMENT,`code`VARCHAR(20)COLLATEutf8mb4_binDEFAULTNULL,`age`INTDEFAULT'0',`name`VARCHAR(30)COLLATEutf8mb4_binDEFAULTNULL,`height`INTDEFAULT&#......
  • 【人工智能】Moss-AI编程利器:CodeMoss & ChatGPT中文版超详细入门教程!(VScode/IDER/WE
    文章目录摘要一、环境介绍VSvode安装步骤IDER(Pycharm)安装步骤Web使用步骤二、Moss9大功能讲解1、AI问答对话2、文件上传功能3、自定义AI助手4、AI联网助手5、AI图片识别6、思维链思维链的简单介绍使用CodeMoss思维链7、AI图片生成图片生成效果8、图片生成代码9、......
  • 视频流媒体播放器EasyPlayer.js无插件H5播放器,如何测试demo视频?
    EasyPlayer.js播放器作为一款功能全面的H5流媒体播放器,凭借其多种协议支持、多种解码方式、丰富的渲染元素和强大的应用功能,以及出色的跨平台兼容性,为用户提供了高度定制化的选项和优化的播放体验。无论是视频直播还是点播,EasyPlayer.js视频流媒体播放器都能满足各种复杂场景下的......
  • VLM-OCR-Demo:一个使用VLM用于OCR任务的示例
    https://www.cnblogs.com/mingupupu/p/18594592 前言上一篇文章TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面中我们构建了一个方便使用TesseractOCR的用户界面,今天构建一个类似的界面,使用SemanticKernel接入视觉模型,测试一下用视觉模型做OCR任务的效果。在......
  • VLM-OCR-Demo:一个使用VLM用于OCR任务的示例
    前言上一篇文章TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面中我们构建了一个方便使用TesseractOCR的用户界面,今天构建一个类似的界面,使用SemanticKernel接入视觉模型,测试一下用视觉模型做OCR任务的效果。在之前的文章使用Tesseract进行图片文字识别的总结中......
  • 三十七 Home Assistant 开发hass.io插件流程&First Demo
    开发插件Hass.io的插件允许用户扩展HomeAssistant的功能。这可以是运行一个HomeAssistant能够与之集成的应用程序(如MQTT代理),或者通过Samba共享配置以便于从其他计算机轻松编辑。插件可以通过HomeAssistant中的Hass.io面板进行配置。在底层,插件是发布在DockerHub上的Do......
  • 【OpenAI 】从获取OpenAI API Key到实现数据分类Demo的完整教程(超详细)!
    文章目录一、初识OpenAIAPI1.1获取API-Key(两种方案)1.2安装OpenAI库二、Python调用OpenAIAPI的基础设置2.1设置API密钥和BaseURL2.2参数详解三、构建一个简单的聊天应用3.1创建聊天请求3.2参数详解3.3处理响应四、完整代码示例1.Python示例代码(基础)2.Python......