1、下图是一些常见的数据同步业务场景:
实时数据:对实时性要求很高,延迟在毫秒范围内。常见的有kafka/rabbitmq等消息中间件,mysql binlog日志,oracle归档日志等。
离线数据:对实时性要求不高,可以分钟级、小时级、日级等。比如历史数据迁移或者T日处理T-1日数据等。
全量同步:一般情况下单表数据小于100万笔数据的时候可以采用全量同步策略,如工作日表数据等。
增量同步:一般情况下都会基于业务时间字段进行同步,如T-1日交易数据报表统计等。
先全量、后增量:此种方式将全量和增量两种策略结合起来。
2、今天给大家分享全量同步的示例,基于test数据库,从t1表全量同步数据到t2表,由于t1表的数据比较小,所以选择全量同步策略,如下图所示。
truncate_test_t2和全量同步(表数量小)是两个转换步骤,他们之前是同步执行的。每个步骤引用自己的具体转换逻辑。
3、truncate_test_t2的转换逻辑比较简单,每次同步数据之前将目标表t2 表数据清空,当然也可以采用delete 语句,不过delete 语句在大数据量的情况下性能比较差。
4、全量同步(表数量小)的具体转换文件如下图,从t1表读取数据,经过一些列的转换映射等操作,写入t2目标表。t1和t2 表结构可以相同也可以不同。
如有小伙伴对图片中用到的步骤不太熟悉的话,可以参考我以前的文章。
标签:同步,kettle,t2,t1,第三十七,数据量,数据,全量 From: https://www.cnblogs.com/zjBoy/p/17997624