首页 > 其他分享 >kettle案例六数据表关联--排序记录-记录集连接-过滤记录

kettle案例六数据表关联--排序记录-记录集连接-过滤记录

时间:2023-08-08 11:35:38浏览次数:40  
标签:记录 -- 连接 数据表 集合 关联 数据 id


如果我们清洗的数据是多个维度的,那么很有可能对数据进行关联得到一张最终表进行分析。
比如
回答集合的数据里有如下字段
id optionId user
包含了 谁 回答了哪个问题,选项是什么。

选项集合的数据里有如下字段
id question option

我们最终希望得到的数据集合是
id question option user

那么就需要对两个集合进行关联

新建流程如下:

kettle案例六数据表关联--排序记录-记录集连接-过滤记录_数据集

排序记录

排序记录只需要指定排序字段和方向即可,其他临时目录可以使用默认目录。

kettle案例六数据表关联--排序记录-记录集连接-过滤记录_字段_02

记录集连接

记录集连接可以实现数据集合的关联,也分为内连接,左连接,右连接,外连接。

我们这里以用户回答为主表,则选择左连接即可。

连接字段就是集合一与集合二哪个字段相等时合并成一条记录。

这里是回答集合的optionId和选项集合的id

kettle案例六数据表关联--排序记录-记录集连接-过滤记录_数据仓库_03

过滤记录

把两个集合连接关联起来之后我们发现有些脏数据存在,就是一些老的用户回答没有对应的问题和选项,那么这部分数据我们是不存入数据库的,则在入库之前需要对数据进行过滤。

新建过来记录流程如下:

kettle案例六数据表关联--排序记录-记录集连接-过滤记录_数据仓库_04

填写过滤的条件即可。

我们这里判断条件是

option 不为空时 为true,然后把为true的数据传送到下一步MongoDB Output里。

如下:

kettle案例六数据表关联--排序记录-记录集连接-过滤记录_数据_05


标签:记录,--,连接,数据表,集合,关联,数据,id
From: https://blog.51cto.com/u_16218512/7006266

相关文章

  • Siemens 西门子PLC的TCP通讯(不同项目下)②--TRCV_C指令
    上期主要了解了TSEND_C指令的各项参数的意义,隐藏参数LEN等可以默认本期将了解另一个配套组合指令块TRCV_C,这是个接收指令块,大概呢跟发送指令TSEND_C差不多1.0从右边指令栏--通信--开放式用户通讯--其他,选择TRCV_C拖动到程序1中,如下图 2.0下面说下具体这个指令块的参数设置......
  • Pentaho Report Design发布报表到Pentaho Server
    我们在前面两章分别学习了windows安装PentahoReportDesignPentahoReportDesign设计柱状图windows安装PentahoServer本章来学习PentahoReportDesign发布报表到PentahoServer。PentahoReportDesign准备报表使用PentahoReportDesign设计好报表之后需要呈现给其他人看时,......
  • MySQL
    一、优化定位分析索引聚簇索引优化二、其他面试题事务主从同步分库分表......
  • 火山引擎DataLeap数据质量动态探查及相关前端实现
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群需求背景火山引擎DataLeap数据探查上线之前,数据验证都是通过写SQL方式进行查询的,从编写SQL,到解析运行出结果,不仅时间长,还会反复消耗计算资源,探查上线后,只需要一次探查,就可以得到整张表的......
  • Pentaho Report Design设计柱状图
    我们在上一章节已经安装了PentahoReportDesign,现在使用它来设计柱状图。新建bar模版如果才打开,可以看到有一些Samples模版可以选择,直接点击Charts和Bar即可。如图:或者新建一个空白的report模版,然后选中左边工具栏的chart工具,拖动到ReportHeader中,并拖动产生的图标调整大小。......
  • 传奇开区教程 开新区为何要清理数据
    最开始在游戏里用GM号在后台里点各种初始化,然后点玩家数据清理,清理完毕后就下线!进行以下操作!1.清除玩家帐号数据库删除:D:\xMirServer\loginsrv\IDDB下的两个文件ID.DB和ID.DB.IDX2.清除玩家物品数据库删除:D:\xMirServer\Dbserver\FDB 下的三个文件Hum.db和Mir.db和Mir.db.idx3......
  • IDEA 常用快捷键
    1执行(run)alt+r2提示补全(ClassNameCompletion)alt+/3单行注释ctrl+/4多行注释ctrl+shift+/5向下复制一行(DuplicateLines)ctrl+alt+down6删除一行或选中行(deleteline)ctrl+d7向下移动行(movestatementdown)alt+down8向上移动行(movesta......
  • Wireshark抓包工具--做爬虫必备
     Wireshark抓包分析TCP的建立与断开过程tcp服务器2010Wireshark抓包分析TCP的建立与断开过程一、TCP建立连接 说明:在此图中HostA充当客户端角色,HostB充当服务器角色。TCP是因特网中的传输层协议,使用三次握手协议建立连接。当主动方发出SYN连接请......
  • 光纤通信与无线电通信的区别有哪些?
    光纤通信和无线电通信是两种不同的通信方式,它们之间的区别如下:传输介质:光纤通信使用光纤作为传输介质,而无线电通信使用空气作为传输介质。传输距离:光纤通信的传输距离较短,一般在几十公里到几百公里之间,而无线电通信的传输距离较远,可以覆盖数千公里以上的范围。抗干扰能力:光纤通......
  • 遇到问题--hadoop---cdh识别不到服务器状态
    情况公司停电之后回来看到集群情况如下,主要问题是cdh识别不到其中一台服务器状态。这种情况下重启整个集群会超时失败。原因识别不到的可能原因有三个:一是服务器没有启动二是cm客户端程序没有启动三是防火墙问题解决方法依次排查以上三个原因解决问题。ssh远程连接服务器可......