首页 > 其他分享 >ETL工具Kettle使用总结

ETL工具Kettle使用总结

时间:2024-07-24 15:55:44浏览次数:14  
标签:总结 1.6 kettle 数据库 Kettle 关联 数据 ETL

好久没有发布文章了,就用最近工作常用的kettle工具做为素材写一下随笔,方便以后碰到相同的问题快速解决。

kettle的简介我就不介绍了,大家随便百度一下就可以查到,
主要作用就是用于从一个或多个数据源中提取数据,对数据进行转换和清洗(这个过程就是ETL),然后加载到目标数据存储中,以支持数据分析、报表生成、业务决策等需求。

1.1 Kettle使用的优点:

1、Kettle提供了直观的图形化界面。

2、Kettle可以满足大部分数据处理需求,包括数据格式转换、数据过滤、数据合并、数据计算等。

3、Kettle支持多种数据源和目标,包括关系型数据库、文件、API、Hadoop等,可以方便地集成不同类型的数据。

注意:kettle安装之前需要安装java的jdk,否则有可能闪退

此处附上jdk安装:https://blog.csdn.net/qq_48052049/article/details/126766806

1.2 下载安装

链接: https://www.hitachivantara.com/en-us/products/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html
在这里插入图片描述
往下划,找到pdi
在这里插入图片描述
windows点以下文件运行
(linux点spoon.sh运行)
在这里插入图片描述

1.3 【Spoon.bat 双击后闪退】解决办法

1、检查jdk和系统变量是否配置正确:cmd下java、javac、iava-version 三个命令都能执行说明没问题;
2、修改spoon.bat里内存配置,这也是能百度到的大多数答案,比如:https://www.cnblogs.com/espookv/p/6007326.html
大多数人到这一步应该就可以了,但是我的还是不行!
3、增加系统变量:kettle_home 变量值为kettle文件位置:D:\install\kettle\data-integration 仍然不起作用
4、更换idk版本,kettle-8.2我把idk换成了1.8:仍然不起作用:
5、增加系统变量:PENTAHO_JAVA_HOME 变量值为idk下的jre录:D:\install\java8\jre
可以按1-2-5-3-4的顺序进行排查!

打开界面
在这里插入图片描述

1.4 数据库配置

1.打开Kettle,创建新的工作空间

2.在工作空间中,右击“数据库连接”,选择“新建数据库连接”

3.填写连接信息,包括数据库类型、主机名、端口号、数据库名、用户名和密码等,然后点击“测试连接”按钮进行连接验证

4.连接验证通过后,点击“保存”按钮保存连接信息
在这里插入图片描述

1.5 EXCEL 输入

双击打开,需要操作的部分红框标出
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.6 表关联注意事项

1.6.1 表关联之前排序

在两张表关联之前需要对数据进行排序,关联什么字段就用什么字段排序,并且关联的字段在排序中也需要出现否则关联结果会出现差异

1.6.2 关联维度表

在这里插入图片描述

1.6.3 数据同步并标记删除旧数据

如果需要对数据进行同步最好使用以下2方法,1方法同数据可能会出现数据多数据的情况
在这里插入图片描述

1.6.4 多张表数据关联一个同一张表

这种情况下步骤之间的分割线有两种模式一种是复制,一种是分发。多数情况下我们需要选择复制就行
在这里插入图片描述

标签:总结,1.6,kettle,数据库,Kettle,关联,数据,ETL
From: https://blog.csdn.net/weixin_44616592/article/details/139448325

相关文章

  • python基础理论小总结
    1.python语言的特性Python是一门解释型语言,简单清晰,开源免费,跨平台,有大量第三方库辅助开发,支持面向对象与自动垃圾回收,方便与其他编程语言相互调用。Python在数据采集、人工智能、WEB后台开发、自动化运维、测试等方向应用广泛。2.解释型语言和编译型语言的区别执行方式不......
  • 如何数据防泄漏|十款热门防泄密软件推荐(帮你总结)
    “防患于未然,安不忘危。”企业数据的安全与保密不仅是企业生存和发展的基石,更是法律与道德的双重要求。如何有效防止数据泄漏? 本文将围绕这一主题,为您推荐十款热门的防泄密软件,并首先探讨企业数据保密的基本策略。第一部分:如何企业数据保密企业数据保密的核心在于构建全......
  • 7.23 考试总结
    前一天被告知要考试,老师还不告诉我们考什么……又是学长Zesty_Fox出题,www(上次就被学长的数据卡了T1滑雪,话说这题我们去年暑假不就考过了吗。。。真不愧是学长的原题大赛。一眼记搜,5min秒了。T2涂色,区间DP模板,刚写过的。好一个原题。T3DistanceinTree,淀粉质模板。......
  • vue的属性绑定/条件渲染/列表渲染/key管理状态/事件处理/事件传参/事件修饰符等知识总
    1.属性绑定属性绑定使用v-bind命令执行,可忽略不写,以下图片为属性绑定知识内容效果图2.条件渲染条件渲染使用v-if命令执行**v-ifVSv-show区别**v-if是"真实的"按条件渲染,因为它确保了在切换时,条件区块内的事件监听器和子组件都会被销毁与重建(将条件移除和添加如果首次......
  • Java面试题总结(持续更新)
    1、this关键字和super关键字的区别及联系this关键字用在本类中。在类的内部,可以在任何方法中使用this引用当前对象。this关键字是用来解决全局变量和局部变量之间的冲突。this()可以调用同类中重载的构造方法,并且需要放在第一行。super关键字用在子类中。在子类中可以通......
  • 2024暑假集训总结
    2024暑假集训总结知识点清单:树状数组拓展:(1)k维前缀和(2)树状数组+倍增没码过,小慌线段树:(1)线段树不仅仅是一个维护区间和、区间最值或者类似于方差那道题,维护区间的平方等等信息,它的深层是将区间拆分为\(O(logn)\)个子区间从而将修改与查询降为\(O(logn)\)级别,因此对于线......
  • [2024JZYZ暑期集训]知识点总结
    前言第三次暑期集训了,与前两次不同,这次没有前两次的激动了,所以也能够更深入地学习算法。闲话宿舍挺好,有空床能住。捡了三块钱,史上最灵异事件。R班好热闹。认识了几个郑州那边的大佬知识点Day1讲了几个基础数据结构(树状数,线段树),作业里面的题目很多之前都做过,就当复习了。......
  • 转行 3 年涨薪 300%,我总结了一套产品经理快速入门指南!
    目录一、熟悉产品经理的工作全流程二、了解并具备初级产品所需的能力模型三、一份不断迭代的面试简历什么是STAR法则?举例简单说明四、一份专业清晰的产品文档链接五、开始投递简历推荐产品经理工具要想0基础快速转行产品经理,我通过个人实践总结了5个关键点,可......
  • 20240723(30.2)AH股行情总结:创业板收跌3%,消费股、有色、黑色系齐跌,高股息资产及国债上涨
    半导体产业链全线回调,光刻机、GPU方向领跌,白酒领跌消费股。银行股逆势走强,四大行股价再创新高。黑色系及有色金属齐跌,沪锡跌4%,铁矿石跌超3%。周二,A股低开低走,午后跌幅加剧上证指数收跌1.6%,深成指跌近3%,创业板跌3%,两市成交额超6600亿,下跌股票数量超4600只。半导体产业链大幅走......
  • 7.23第二周周二学习总结
    基础算法复习(上午)双指针一本书P页,第i页有知识点ai,同一个知识点可能多次提到,希望通过连续的一些页把所有知识点都覆盖到。求出连续的最少页数#include<iostream>#include<algorithm>#include<cmath>#include<set>#include<map>#include<cstdio>#defineINF0x3f3f3......