kettle从入门到精通第三十七课 kettle 全量同步（数据量小）

时间：2024-01-31 09:12:23浏览次数：33

标签：同步 kettle t2 t1 第三十七数据量数据全量

1、下图是一些常见的数据同步业务场景：

实时数据：对实时性要求很高，延迟在毫秒范围内。常见的有kafka/rabbitmq等消息中间件，mysql binlog日志，oracle归档日志等。

离线数据：对实时性要求不高，可以分钟级、小时级、日级等。比如历史数据迁移或者T日处理T-1日数据等。

全量同步：一般情况下单表数据小于100万笔数据的时候可以采用全量同步策略，如工作日表数据等。

增量同步：一般情况下都会基于业务时间字段进行同步，如T-1日交易数据报表统计等。

先全量、后增量：此种方式将全量和增量两种策略结合起来。

2、今天给大家分享全量同步的示例，基于test数据库，从t1表全量同步数据到t2表，由于t1表的数据比较小，所以选择全量同步策略，如下图所示。

truncate_test_t2和全量同步(表数量小)是两个转换步骤，他们之前是同步执行的。每个步骤引用自己的具体转换逻辑。

3、truncate_test_t2的转换逻辑比较简单，每次同步数据之前将目标表t2 表数据清空，当然也可以采用delete 语句，不过delete 语句在大数据量的情况下性能比较差。

4、全量同步(表数量小)的具体转换文件如下图，从t1表读取数据，经过一些列的转换映射等操作，写入t2目标表。t1和t2 表结构可以相同也可以不同。

如有小伙伴对图片中用到的步骤不太熟悉的话，可以参考我以前的文章。

标签：同步,kettle,t2,t1,第三十七,数据量,数据,全量
From： https://www.cnblogs.com/zjBoy/p/17997624

kettle从入门到精通第三十六课 kettle carte 集群
1、carte服务可以单体运行也可以集群方式运行，今天我们一起来学习下carte的集群模式部署和使用。本次示例用一个master和两个slave从节点演示。carte-config-master-8080.xml 配置文件：1<slave_config>2<!--3Documentdescription...45-masters:Youcanlistt......
【数据库】对大数据量数据集，PostgreSQL分组统计数量，使用 row_number() over
在处理大数据量数据集时，我们经常需要进行分组统计。而在PostgreSQL中，我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时，通过设置row_num<=100的条件，我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row_......
【数据库】对大数据量数据集，PostgreSQL分组统计数量，使用 row_number() over
在处理大数据量数据集时，我们经常需要进行分组统计。而在PostgreSQL中，我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时，通过设置row_num<=100的条件，我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row......
kettle 定时调用转换
[root@localhostdata-integration]#catrun_logintop.sh#!/bin/bashcd/home/data-integrationnohup/home/data-integration/pan.sh-file=/home/data-integration/logintop10.ktr& 数据库连接搞不上的时候 kettle安装文件夹下面的 simple-jndi找到jdbc.propert......
kettle从入门到精通第三十五课 kettle 变量
1、设置变量a、可以通过转换中的“设置变量”步骤进行设置。 b、手动通过kettle.properties文件或通过“编辑”菜单中的“设置环境变量”对话框来定义变量。kettle.properties文件的位置可以通过设置KETTLE_HOME来指定，如设置KETTLE_HOME为/opt/kettle/home,则kettle.propert......
kettle从入门到精通第三十四课 kettle 错误处理
1、我们在平常写应用程序的时候，需要主动捕获异常或者错误，不然程序有可能异常退出。同样kettle也支持异常或者错误处理，下图展示的是在批量插入数据的时候捕获异常，如唯一健冲突，死锁等，并将错误信息保存到表里面，方便后续邮件预警和排查问题。2、在需要异常处理的步骤上面右键，点击定......
大数据量插入、更新改成批量模式
可以看出实际应用场景中储位数据量比较大，优先优化储位相关接口本机环境优化前耗时：储位个数3200update时间28578insert时间21758 本机环境优化后耗时：储位个数3200update时间5169insert时间1733 将数据库连接......
Kettle部署centos7并添加远程图形界面访问
Kettle部署centos7并添加远程图形界面访问安装运行环境安装远程访问（xmanager）添加中文支持安装运行环境kettle需要java环境才能运行，因此要安装Java，点击我查看部署jdk。安装图形化界面1yumgroupinstall"XWindowSystem" 上传ketle文件，并上传至服务器......
centos7 安装kettle 并实现图形化界面
说实在的，在centos上实现kettle图形化，有点脱裤子放屁的感觉；话不多说干起来；本案例采用了kettle官网的pdi-ce-9.0.0.0-423.zip版本；centos7图形化工具为VNC-Server 一：部署kettle1.上传后,解压文件到指定目录unzippdi-ce-9.0.0.0-423.zip-d/data/software/2.进入：/data/softw......
kettle报错ldconfig: command not found解决方法
一、前言之前测试服务器有一个kettle是正常的；后来让换服务器，把kettle迁移后，就发现了问题。1.手动执行以下命令是可以运行kettle的：LOG_DATE=`date+%Y%m%d`LOG_PATH=/home/admin/kettle/logs/mykettle_${LOG_DATE}.logKJB_PATH=/home/admin/kettle/kjb/home/admin/kettle/dat......

kettle从入门到精通第三十七课 kettle 全量同步（数据量小）

相关文章

赞助商

阅读排行

kettle从入门到精通 第三十七课 kettle 全量同步（数据量小）

相关文章

赞助商

阅读排行

kettle从入门到精通第三十七课 kettle 全量同步（数据量小）