kettle从入门到精通第三十八课 kettle 分页全量同步（数据量大）

时间：2024-02-02 13:34:36浏览次数：31

标签：步骤 kettle t2 t1 全量数据量 offset 第三十八

1、上一课我们学习了在数据量小的情况下的全量同步示例，本次我们一起学习下kettle 分页全量同步。

2、kettle分页全量同步示例依然基于test数据库，从t1表全量同步数据到t2表，由于t1表的数据比较大，所以选择分页全量同步策略，如下图所示。

前提：

a、基于mysql 数据库

b、分页查询数据基于select * from t1 limit offset,size

c、假定t1表中有125条记录，每页size=25，offset=(curr_page-1)*size

主要步骤：

a、truncate目标DB表t2表

b、计算t1表的总记录数，然后通过javascript步骤生成offset 列表。

c、truncate_test_t2、query_test_t1_totalPage、循环抽数是三个转换步骤，每个转换步骤引用自己的具体实现转换文件。

3、truncate_test_t2的转换逻辑比较简单，每次同步数据之前将目标表t2 表数据清空，当然也可以采用delete 语句，不过delete 语句在大数据量的情况下性能比较差。

4、query_test_t1_totalPage步骤的具体实现逻辑如下图所示： a、查询t1表的总页数max_page b、根据max_page和每页的size计算offset列表

5、计算offset步骤是javascript 步骤，这里通过一个for循环，将一条数据转换为多条数据，输出offset和currPage，最后通过SKIP_TRANSFORMATION 跳过for外层的进程。

6、下图是循环抽数步骤具体实现，通过从结果获取记录步骤获取offset，然后offset传递给表输入步骤进行加载数据，最后通过表输出写入目标表t2.

7、这里要注意勾选执行每一行选项。

8、循环抽数步骤要注意勾选执行每一个输入选项，这样才可以实现每个offset 执行一个次抽数逻辑，也就是每个批次25笔数据处理一次。

如有小伙伴对图片中用到的步骤不太熟悉的话，可以参考我以前的文章。

标签：步骤,kettle,t2,t1,全量,数据量,offset,第三十八
From： https://www.cnblogs.com/zjBoy/p/18001479

kettle9.1连接MySQL8.0数据库报错：
Connectionfailed.Verifyallconnectionparametersandconfirmthattheappropriatedriverisinstalled.Theservertimezonevalue'ÖÐ¹ú±ê×¼Ê±¼ä'isunrecognizedorrepresentsmorethanonetimezone.YoumustconfigureeithertheserverorJD......
kettle Redhat7连接资源库报错No more handles [MOZILLA_FIVE_HOME=''] (java.lang.Un
今天把kettle7.1放到redhat7上运行，发现在连接资源库的时候会报一个错误，就是标题的错误。本来是想在windows上用kettle工具创建了一些job和trans打算迁移到linux上去执行，或者到任意机器上执行，突然想到这些kettle文件的还会存在迁移的问题，因为在job和trans文件里的数据库连接信息都......
kettle从入门到精通第三十七课 kettle 全量同步（数据量小）
1、下图是一些常见的数据同步业务场景：实时数据：对实时性要求很高，延迟在毫秒范围内。常见的有kafka/rabbitmq等消息中间件，mysqlbinlog日志，oracle归档日志等。离线数据：对实时性要求不高，可以分钟级、小时级、日级等。比如历史数据迁移或者T日处理T-1日数据等。全量同步：一般情况下......
kettle从入门到精通第三十六课 kettle carte 集群
1、carte服务可以单体运行也可以集群方式运行，今天我们一起来学习下carte的集群模式部署和使用。本次示例用一个master和两个slave从节点演示。carte-config-master-8080.xml 配置文件：1<slave_config>2<!--3Documentdescription...45-masters:Youcanlistt......
【数据库】对大数据量数据集，PostgreSQL分组统计数量，使用 row_number() over
在处理大数据量数据集时，我们经常需要进行分组统计。而在PostgreSQL中，我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时，通过设置row_num<=100的条件，我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row_......
【数据库】对大数据量数据集，PostgreSQL分组统计数量，使用 row_number() over
在处理大数据量数据集时，我们经常需要进行分组统计。而在PostgreSQL中，我们可以使用row_number()函数结合over(partitionby)子句来实现这个功能。同时，通过设置row_num<=100的条件，我们可以限定每组最多数量为100。本文将详细介绍如何使用这种方法进行分组统计。一、row......
kettle 定时调用转换
[root@localhostdata-integration]#catrun_logintop.sh#!/bin/bashcd/home/data-integrationnohup/home/data-integration/pan.sh-file=/home/data-integration/logintop10.ktr& 数据库连接搞不上的时候 kettle安装文件夹下面的 simple-jndi找到jdbc.propert......
kettle从入门到精通第三十五课 kettle 变量
1、设置变量a、可以通过转换中的“设置变量”步骤进行设置。 b、手动通过kettle.properties文件或通过“编辑”菜单中的“设置环境变量”对话框来定义变量。kettle.properties文件的位置可以通过设置KETTLE_HOME来指定，如设置KETTLE_HOME为/opt/kettle/home,则kettle.propert......
kettle从入门到精通第三十四课 kettle 错误处理
1、我们在平常写应用程序的时候，需要主动捕获异常或者错误，不然程序有可能异常退出。同样kettle也支持异常或者错误处理，下图展示的是在批量插入数据的时候捕获异常，如唯一健冲突，死锁等，并将错误信息保存到表里面，方便后续邮件预警和排查问题。2、在需要异常处理的步骤上面右键，点击定......
大数据量插入、更新改成批量模式
可以看出实际应用场景中储位数据量比较大，优先优化储位相关接口本机环境优化前耗时：储位个数3200update时间28578insert时间21758 本机环境优化后耗时：储位个数3200update时间5169insert时间1733 将数据库连接......

kettle从入门到精通第三十八课 kettle 分页全量同步（数据量大）

相关文章

赞助商

阅读排行

kettle从入门到精通 第三十八课 kettle 分页全量同步（数据量大）

相关文章

赞助商

阅读排行

kettle从入门到精通第三十八课 kettle 分页全量同步（数据量大）