首页 > 其他分享 >kettle从入门到精通 第三十七课 kettle 全量同步(数据量小)

kettle从入门到精通 第三十七课 kettle 全量同步(数据量小)

时间:2024-01-31 09:12:23浏览次数:28  
标签:同步 kettle t2 t1 第三十七 数据量 数据 全量

1、下图是一些常见的数据同步业务场景:

实时数据:对实时性要求很高,延迟在毫秒范围内。常见的有kafka/rabbitmq等消息中间件,mysql binlog日志,oracle归档日志等。

离线数据:对实时性要求不高,可以分钟级、小时级、日级等。比如历史数据迁移或者T日处理T-1日数据等。

全量同步:一般情况下单表数据小于100万笔数据的时候可以采用全量同步策略,如工作日表数据等。

增量同步:一般情况下都会基于业务时间字段进行同步,如T-1日交易数据报表统计等。

先全量、后增量:此种方式将全量和增量两种策略结合起来。

 2、今天给大家分享全量同步的示例,基于test数据库,从t1表全量同步数据到t2表,由于t1表的数据比较小,所以选择全量同步策略,如下图所示。

truncate_test_t2和全量同步(表数量小)是两个转换步骤,他们之前是同步执行的。每个步骤引用自己的具体转换逻辑。

 3、truncate_test_t2的转换逻辑比较简单,每次同步数据之前将目标表t2 表数据清空,当然也可以采用delete 语句,不过delete 语句在大数据量的情况下性能比较差。

4、全量同步(表数量小)的具体转换文件如下图,从t1表读取数据,经过一些列的转换映射等操作,写入t2目标表。t1和t2 表结构可以相同也可以不同。

 如有小伙伴对图片中用到的步骤不太熟悉的话,可以参考我以前的文章。

 

标签:同步,kettle,t2,t1,第三十七,数据量,数据,全量
From: https://www.cnblogs.com/zjBoy/p/17997624

相关文章

  • kettle从入门到精通 第三十六课 kettle carte 集群
    1、carte服务可以单体运行也可以集群方式运行,今天我们一起来学习下carte的集群模式部署和使用。本次示例用一个master和两个slave从节点演示。carte-config-master-8080.xml 配置文件:1<slave_config>2<!--3Documentdescription...45-masters:Youcanlistt......
  • 【数据库】对大数据量数据集,PostgreSQL分组统计数量,使用 row_number() over
    在处理大数据量数据集时,我们经常需要进行分组统计。而在PostgreSQL中,我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时,通过设置row_num<=100的条件,我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row_......
  • 【数据库】对大数据量数据集,PostgreSQL分组统计数量,使用 row_number() over
    在处理大数据量数据集时,我们经常需要进行分组统计。而在PostgreSQL中,我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时,通过设置row_num<=100的条件,我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row......
  • kettle 定时调用转换
    [root@localhostdata-integration]#catrun_logintop.sh#!/bin/bashcd/home/data-integrationnohup/home/data-integration/pan.sh-file=/home/data-integration/logintop10.ktr& 数据库连接搞不上的时候  kettle安装文件夹下面的 simple-jndi找到jdbc.propert......
  • kettle从入门到精通 第三十五课 kettle 变量
    1、设置变量a、可以通过转换中的“设置变量”步骤进行设置。 b、手动通过kettle.properties文件或通过“编辑”菜单中的“设置环境变量”对话框来定义变量。kettle.properties文件的位置可以通过设置KETTLE_HOME来指定,如设置KETTLE_HOME为/opt/kettle/home,则kettle.propert......
  • kettle从入门到精通 第三十四课 kettle 错误处理
    1、我们在平常写应用程序的时候,需要主动捕获异常或者错误,不然程序有可能异常退出。同样kettle也支持异常或者错误处理,下图展示的是在批量插入数据的时候捕获异常,如唯一健冲突,死锁等,并将错误信息保存到表里面,方便后续邮件预警和排查问题。2、在需要异常处理的步骤上面右键,点击定......
  • 大数据量插入、更新改成批量模式
    可以看出实际应用场景中储位数据量比较大,优先优化储位相关接口本机环境优化前耗时:储位个数3200update时间28578insert时间21758    本机环境优化后耗时:储位个数3200update时间5169insert时间1733    将数据库连接......
  • Kettle部署centos7并添加远程图形界面访问
    Kettle部署centos7并添加远程图形界面访问安装运行环境安装远程访问(xmanager)添加中文支持安装运行环境kettle需要java环境才能运行,因此要安装Java,点击我查看部署jdk。安装图形化界面1yumgroupinstall"XWindowSystem" 上传ketle文件,并上传至服务器......
  • centos7 安装kettle 并实现图形化界面
    说实在的,在centos上实现kettle图形化,有点脱裤子放屁的感觉;话不多说干起来;本案例采用了kettle官网的pdi-ce-9.0.0.0-423.zip版本;centos7图形化工具为VNC-Server 一:部署kettle1.上传后,解压文件到指定目录unzippdi-ce-9.0.0.0-423.zip-d/data/software/2.进入:/data/softw......
  • kettle报错ldconfig: command not found解决方法
    一、前言之前测试服务器有一个kettle是正常的;后来让换服务器,把kettle迁移后,就发现了问题。1.手动执行以下命令是可以运行kettle的:LOG_DATE=`date+%Y%m%d`LOG_PATH=/home/admin/kettle/logs/mykettle_${LOG_DATE}.logKJB_PATH=/home/admin/kettle/kjb/home/admin/kettle/dat......