首页 > 其他分享 >kettle从入门到精通 第四十四课 kettle 去重

kettle从入门到精通 第四十四课 kettle 去重

时间:2024-02-21 10:56:34浏览次数:27  
标签:kettle 入门 重复 步骤 第四十四 重复记录 排序 数据

 1、我们平常在写应用程序的时候,会有去重的业务场景,可以在数据库层面解决,也可以在内存层面解决。

同样kettle也有去重的步骤【唯一行(哈希值)】和【去除重复记录】

唯一行(哈希值):使用 HashSet 来删除重复行,只保留唯一的行。

去除重复记录(Unique Rows):删除重复行,只保留唯一的行。这只适用于已排序的输入。如果输入没有排序,则只能正确处理连续的重复行。

2、下面示例比较简单,使用步骤【自定义常量数据】生成3条数据,然后通过步骤【唯一行(哈希值)】进行去重。

 

 3、根据name字段进行去重,hashset的去重逻辑是不存在重复数据插入hashset,存在则不插入,所以name为Java小金刚的数据保留了第一条,如下图所示。

 4、使用步骤【自定义常量数据】生成4条数据,然后通过步骤【去除重复记录】进行去重。没有排序的情况下,不相邻的重复数据没有进行去重,如下图所示。

 

 

 5、使用步骤【自定义常量数据】生成4条数据,然后通过步骤【排序】根据name进行排序,最后通过步骤【去除重复记录】进行去重。排序的情况下,不相邻的重复数据仅保留一条,如下图所示。

 

 

 

 

标签:kettle,入门,重复,步骤,第四十四,重复记录,排序,数据
From: https://www.cnblogs.com/zjBoy/p/18005551

相关文章

  • [转]基于前端技术栈的PC跨平台桌面应用开发技术Electron简介及快速入门
    原文地址:Electron简介及快速入门-知乎大江东去:基于EA的软件工程创新理论与最佳实践第四章:桌面应用系统开发基础及入门第四节:Electron简介及快速入门一、Electron基本介绍官网地址:https://www.electronjs.org/Electron是一个由OpenJS基金会维护的开源项目,也是一个活跃的......
  • docker快速入门与基本指令
    参考资料:https://zhuanlan.zhihu.com/p/137895577https://www.runoob.com/docker/ubuntu-docker-install.html安装docker的安装相对简单,官方提供了一个安装命令:curl-fsSLhttps://test.docker.com-otest-docker.shsudoshtest-docker.sh可以使用piplist|grepd......
  • 【前端开发】VSCode下载安装教程,新手入门(超详细)附安装包
    ​1.VSCode简介        VSCode,全称VisualStudioCode,是一款由微软开发的跨平台源代码编辑器,可用于Windows、Linux和macOS操作系统。以下是对VSCode的详细介绍:功能丰富:VSCode支持语法高亮、代码自动补全(又称IntelliSense)、代码重构、查看定义功能,并内置了命令行工......
  • 【解题报告】【比赛复现】洛谷入门赛 #17 题解
    洛谷入门赛#17题解今日推歌:《春嵐feat.初音ミク》john感觉这首都快成周榜战神了(Before关于我做入门赛的精神状态:没做T4,因为题面读得我头疼……而且大模拟不想做(虽然也不是多大的模拟展开目录目录洛谷入门赛#17题解BeforeA食堂B数学选择题AfterC风球E式神考核Af......
  • 热辣滚烫,Salesforce开发入门指南:零基础学习宝典!
    开发人员将Salesforce组织扩展到声明式配置之外,构建应用程序,进而优化业务运营。Salesforce开发人员通常会使用两种编程语言:Apex和JavaScript。然而,Salesforce开发不仅仅只包括代码。为了在职业道路上脱颖而出,开发人员还需要了解声明性功能,将组织的设计和性能保持最佳状态。Sal......
  • 最新Nmap入门技术
    Nmap详解Nmap(NetworkMapper,网络映射器)是一款开放源代码的网络探测和安全审核工具。它被设计用来快速扫描大型网络,包括主机探测与发现、开放的端口情况、操作系统与应用服务指纹识别、WAF识别及常见的安全漏洞。它的图形化界面是Zenmap,分布式框架为DNmap。 Nmap的特点如下。(1......
  • MongoDB 入门教程
    基本概念数据库(Database)是集合的容器,相当于关系型DB中的数据库集合(Collection)数据库中的一组文档,相当于SQL中的表文档(Document)集合中的一条记录,相当于SQL的表中的一行。不同的文档之间不必有相同的结构,这一点是和SQL不同的。字段(Field)文档中的键值对,相当于SQL中的列。比......
  • 组合数学从入门到进门
    1.零些记号略。咕咕咕2.排列与组合\(\color{plum}\texttt{Watchyouleaving}\)\(\color{violet}\texttt{AndItrytotellmyselfthatI'mjuststreaming}\)\(\color{magenta}\texttt{I'mjuststreaming}\)2.1四则计数原理设集合\(S\)的一个划分(\(\text......
  • Docker-Compose简单入门使用
    Dockercompose使用DockerCompose官方文档:https://docs.docker.com/compose/一、DockerCompose安装如果安装使用DockerDesktop默认就安装了DockerCompose,dockerCompose安装参考:https://www.cnblogs.com/morang/p/devops-docker24-composev2-install.htmlhttps://blog......
  • Vue3入门
    认识Vue3目录认识Vue3Vue2选项式APIvsVue3组合式APIVue3的优势使用create-vue搭建Vue3项目认识create-vue使用create-vue创建项目熟悉项目和关键文件组合式API—setup选项setup选项的写法和执行时机setup中写代码的特点<scriptsetup>语法糖组合式API—......