首页 > 其他分享 >kettle从入门到精通 第三十八课 kettle 分页全量同步(数据量大)

kettle从入门到精通 第三十八课 kettle 分页全量同步(数据量大)

时间:2024-02-02 13:34:36浏览次数:29  
标签:步骤 kettle t2 t1 全量 数据量 offset 第三十八

1、上一课我们学习了在数据量小的情况下的全量同步示例,本次我们一起学习下kettle 分页全量同步。

2、kettle分页全量同步示例依然基于test数据库,从t1表全量同步数据到t2表,由于t1表的数据比较大,所以选择分页全量同步策略,如下图所示。

前提:

a、基于mysql 数据库

b、分页查询数据基于select * from t1 limit offset,size

c、假定t1表中有125条记录,每页size=25,offset=(curr_page-1)*size

主要步骤:

a、truncate目标DB表t2表

b、计算t1表的总记录数,然后通过javascript步骤生成offset 列表。

c、truncate_test_t2、query_test_t1_totalPage、循环抽数是三个转换步骤,每个转换步骤引用自己的具体实现转换文件。

3、truncate_test_t2的转换逻辑比较简单,每次同步数据之前将目标表t2 表数据清空,当然也可以采用delete 语句,不过delete 语句在大数据量的情况下性能比较差。

 4、query_test_t1_totalPage步骤的具体实现逻辑如下图所示: a、查询t1表的总页数max_page b、根据max_page和每页的size计算offset列表

 5、计算offset步骤是javascript 步骤,这里通过一个for循环,将一条数据转换为多条数据,输出offset和currPage,最后通过SKIP_TRANSFORMATION 跳过for外层的进程。

 6、 下图是循环抽数步骤具体实现,通过从结果获取记录步骤获取offset,然后offset传递给表输入步骤进行加载数据,最后通过表输出写入目标表t2.

 7、这里要注意勾选执行每一行选项。

 8、循环抽数步骤要注意勾选执行每一个输入选项,这样才可以实现每个offset 执行一个次抽数逻辑,也就是每个批次25笔数据处理一次。

 

如有小伙伴对图片中用到的步骤不太熟悉的话,可以参考我以前的文章。

标签:步骤,kettle,t2,t1,全量,数据量,offset,第三十八
From: https://www.cnblogs.com/zjBoy/p/18001479

相关文章

  • kettle9.1连接MySQL8.0数据库报错:
    Connectionfailed.Verifyallconnectionparametersandconfirmthattheappropriatedriverisinstalled.Theservertimezonevalue'Öйú±ê׼ʱ¼ä'isunrecognizedorrepresentsmorethanonetimezone.YoumustconfigureeithertheserverorJD......
  • kettle Redhat7连接资源库报错No more handles [MOZILLA_FIVE_HOME=''] (java.lang.Un
    今天把kettle7.1放到redhat7上运行,发现在连接资源库的时候会报一个错误,就是标题的错误。本来是想在windows上用kettle工具创建了一些job和trans打算迁移到linux上去执行,或者到任意机器上执行,突然想到这些kettle文件的还会存在迁移的问题,因为在job和trans文件里的数据库连接信息都......
  • kettle从入门到精通 第三十七课 kettle 全量同步(数据量小)
    1、下图是一些常见的数据同步业务场景:实时数据:对实时性要求很高,延迟在毫秒范围内。常见的有kafka/rabbitmq等消息中间件,mysqlbinlog日志,oracle归档日志等。离线数据:对实时性要求不高,可以分钟级、小时级、日级等。比如历史数据迁移或者T日处理T-1日数据等。全量同步:一般情况下......
  • kettle从入门到精通 第三十六课 kettle carte 集群
    1、carte服务可以单体运行也可以集群方式运行,今天我们一起来学习下carte的集群模式部署和使用。本次示例用一个master和两个slave从节点演示。carte-config-master-8080.xml 配置文件:1<slave_config>2<!--3Documentdescription...45-masters:Youcanlistt......
  • 【数据库】对大数据量数据集,PostgreSQL分组统计数量,使用 row_number() over
    在处理大数据量数据集时,我们经常需要进行分组统计。而在PostgreSQL中,我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时,通过设置row_num<=100的条件,我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row_......
  • 【数据库】对大数据量数据集,PostgreSQL分组统计数量,使用 row_number() over
    在处理大数据量数据集时,我们经常需要进行分组统计。而在PostgreSQL中,我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时,通过设置row_num<=100的条件,我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row......
  • kettle 定时调用转换
    [root@localhostdata-integration]#catrun_logintop.sh#!/bin/bashcd/home/data-integrationnohup/home/data-integration/pan.sh-file=/home/data-integration/logintop10.ktr& 数据库连接搞不上的时候  kettle安装文件夹下面的 simple-jndi找到jdbc.propert......
  • kettle从入门到精通 第三十五课 kettle 变量
    1、设置变量a、可以通过转换中的“设置变量”步骤进行设置。 b、手动通过kettle.properties文件或通过“编辑”菜单中的“设置环境变量”对话框来定义变量。kettle.properties文件的位置可以通过设置KETTLE_HOME来指定,如设置KETTLE_HOME为/opt/kettle/home,则kettle.propert......
  • kettle从入门到精通 第三十四课 kettle 错误处理
    1、我们在平常写应用程序的时候,需要主动捕获异常或者错误,不然程序有可能异常退出。同样kettle也支持异常或者错误处理,下图展示的是在批量插入数据的时候捕获异常,如唯一健冲突,死锁等,并将错误信息保存到表里面,方便后续邮件预警和排查问题。2、在需要异常处理的步骤上面右键,点击定......
  • 大数据量插入、更新改成批量模式
    可以看出实际应用场景中储位数据量比较大,优先优化储位相关接口本机环境优化前耗时:储位个数3200update时间28578insert时间21758    本机环境优化后耗时:储位个数3200update时间5169insert时间1733    将数据库连接......