首页 > 其他分享 >【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

时间：2022-12-27 22:01:25浏览次数：45

标签：参照步骤 Kettle 字段字符串清洗数据

一.前言

需要本文章的源文件下链接自取：【ktr源文件】

1.1 实验内容

本次实验内容如下：

掌握基于Kettle的字符串数据清洗
掌握基于Kettle的字段清洗
掌握基于Kettle的使用参照表清洗

二.实验过程

2.1 实验内容一：掌握基于Kettle的字符串数据清洗

数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的一致性、唯一性问题，从而达到提高数据质量的目的。
基于Kettle的字符串数据清洗包括字符串替换（Replace in string）、字符串操作（String operations）和字符串剪切（Strings cut）。字符串替换和字符串剪切功能相对单一，但由于字符串替换支持正则表达式，所以真正的功能远比字面上表达的强大许多。字符串操作提供了字符串的常规操作，功能丰富
第一步，输入。可以使用“输入自定义常量数据（Data Grid）“步骤作为输入。

4.第二步，使用“字符串操作”步骤做初步清理。达到以下目标：

清除ID字段的前后空白字符
提取CODE字段的数字
转换CITY字段全部为大写

第三步，使用“字符串替换”步骤清理CODE字段。使CODE字段全部以一个数字0开始

第四步，使用“字符串剪切”步骤清理CITY字段。使CITY字段只包括城市名拼音

第五步，输出清理结果，选用Excel输出步骤

点击运行按钮，在弹出的对话框中点击启动按钮。

2.2 实验内容二：掌握基于Kettle的字段清洗

用拆分字段成多行步骤将城市字段拆分成多行
新建一个转换field_op，添加一个输入步骤Data Grid，输入如下数据：

新字段设置成“城市NEW”，示例中的数据以“，”分隔，这是一个中文逗号，分隔符可以设置成“，”但是如果既有中文逗号，又有英文逗号, 甚至还有中英文分号，或者顿号，这时怎么办？由于该步骤的分隔符支持正则表达式，不妨将分隔符设成正则形式[,，；;、]

预览拆分字段成多行步骤

点击运行按钮，在弹出的对话框中点击启动按钮。

2.3 实验内容三：掌握基于Kettle的使用参照表集成数据

不同系统的很多数据表示都不相同，数据集成时要有统一的表示方式。参照表中可以设置一列标识数据来源系统名的字段——SRC_SYS，但是各个源数据中没有这个标识自己系统名的字段。那么如何处理呢？一种方式是为源数据增加一个记录系统名的字段，只为查询而增加一个字段这一般是不可取的，另一种方式是根据源数据的系统名，过滤参照表。
使用参照表集成数据思路：

第一步，一个源数据输入，一个参照数据输入

第二步，过滤参照表，根据源数据的系统名过滤参照数据

第三步，查询过滤后的参照数据，获取性别的统一表示符

最后，预览查询步骤的结果，根据需要自行添加输出

第一步，新建转换ref_op_1。创建两个Data Grid，分别命名为“Data Grid”和”Data Grid Ref“：Data Grid：作为源数据，输入示例数据；Data Grid Ref：输入参照数据，如图：

第二步，过滤参照表。使用过滤记录（Filter rows）步骤过滤参照表的数据。过滤条件设“SRC_SYS = SystemB”，筛选出SystemB的参照数据

第三步，查询参照表。使用流查询（Stream lookup）步骤查询参照表

最后，预览查询结果：

2.4 实验心得：

本次实验收获很大，掌握了基于Kettle的字符串数据清洗，掌握基于Kettle的字段清洗，掌握基于Kettle的使用参照表清洗。

标签：参照,步骤,Kettle,字段,字符串,清洗,数据
From： https://blog.51cto.com/u_15568258/5971793

相关文章

华为云数据库GaussDB(for MySQL)全方位守护企业云上数据安全
为了加快企业数字化转型的进程，首要任务就是要将企业本地数据向云上进行迁移，华为云数据库GaussDB(forMySQL)作为业界技术领先的云上数据库服务之一，帮助企业实现数据云上迁移......
华为云数据库助力微鲤科技智能升级
随着信息技术的不断成熟以及人们对于数据安全性要求的提高，传统的数据库存在的一些弊端逐渐显露，比如数据丢失、无法备份、维护成本高等问题。而华为云推出的产品华为云数据库......
MySQL创建数据表
>......
MySQL创建数据表
......
MySql-数据库增删改查-封装类直接调用-2022-12-27
1、新建文件 db.propertiesdriver=com.mysql.jdbc.Driverurl=jdbc:mysql://localhost:3306/jdbcstudy?useUnicode=true&characterEncoding=utf8&useSSL=falseusernam......
偏序与持久化数据结构
《树状数组》首先来学习一下与偏序问题息息相关的持久化数据结构----树状数组（线段树也是，但这里我就不多说了）想看详细原理证明，这是一个好博客：https://zhuanlan.zhihu.com/......
DataV.GeoAtlas 速成视频-阿里云 DataV 数据可视化
阿里云DataV数据可视化DataV.GeoAtlas速成视频https://mp.weixin.qq.com/s/282fDEeG2tqeq0ks7dDkkwDataV小课堂|GeoAtlas小工具入门必看(qq.com)案例11、范围......
MySQL数据表
......
C/C++《数据结构课程设计》任务书[2022-12-27]
C/C++《数据结构课程设计》任务书[2022-12-27]《数据结构课程设计》任务书一、任务总体安排：班级设计时间地点指导老师21软件开发 17周每周一至周五五六节徐青翠......
守护企业数据安全，华为云数据库 GaussDB(for MySQL)有绝招
随着企业数字化转型热潮到来，越来越多的企业开始讲本地数据向云上进行迁移，云数据库的作用就显得尤为重要，就如同人体的心脏一般，它不仅承担着企业数据的存储和管理功能，同时还肩......

赞助商

阅读排行