首页 > 其他分享 >Kettle精讲(非常全面,建议收藏慢慢看)

Kettle精讲(非常全面,建议收藏慢慢看)

时间:2024-11-19 21:50:12浏览次数:3  
标签:kettle 转换 精讲 Kettle 收藏 Pentaho 组件 ETL

一、kettle简介

1. kettle的发展史

Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。KDE源于最开始的计划是在K Desktop Environment(www.kde.org)上开发这个软件,但这个计划被取消。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师,从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle亦重命名为Pentaho Data Integration(PDI)。Pentaho公司于2015年被Hitachi(日立) Data Systems收购,Hitachi Data Systems于2017年改名为Hitachi Vantara。

Pentaho Data Integration以Java开发,支持跨平台运行,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Pentaho Data Integration分为商业版与开源版,开源版的截止2021年1月的累计下载量达836万,其中19%来自中国。在中国,一般人仍习惯把Pentaho Data Integration(PDI)的开源版称为Kettle。

2. kettle 与ETL

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

在各个企业中,对数据的处理几乎成为其数字化发展的必要流程,而数据的处理,无外乎抽取、统计分析、转换、装载,因此,各个企业目前都需要ETL工程师来完成数据的处理工作。

kettle是一个ETL工具,允许管理来自不同异构数据源的数据,并在基于图形化的工具中,完成对ETL的操作。

3. kettle的架构

Transformation:转换

  • 在大部分场景下,可以直接称之为“数据流”
  • 它可以完成对数据的【输入】-->【处理】-->【输出】
  • 一旦启动一个转换任务,则其中的所有组件会同时启动,并根据配置,逐条处理数据

Job:作业

  • 作业可以称之为步骤流或者控制流
  • 在作业中,可以挂载(调用)转换任务,也可以挂载(调用)job任务
  • 作业中的各个组件,按照顺序执行,可以对执行的结果进行判断并处理分支
  • 作业可以检测数据表、文件是否存在,执行Shell脚本,执行SQL脚本,获取数据,发送邮件等

核心组件:

组件

描述

spoon

【勺子】是kettle的图形化工具,可以通过简单的拖拉拽方式完成kettle任务的设计、运行与调试,为kettle最常用的组件。

Pan

【煎锅】Transformation执行器(命令行方式),Pan用于在终端执行Transformation,没有图形界面

Kitchen

【厨房】Job执行器(命令行方式),Kitchen用于在终端执行Job,没有图形界面。

Carte

嵌入式Web服务,用于远程执行Job或Transformation,Kettle通过Carte建立集群

4. kettle的特点

  1. 免费开源:基于java的免费开源的软件,对商业用户也没有限制,可以在任何的公司中使用。
  2. 容易配置:可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
  3. 兼容各种数据源:ETL工具集,它允许你管理来自不同数据库的数据。
  4. 简单开发:通过图形界面设计与开发任务,无需写代码实现。

二、kettle的安装

下载地址:https://community.hitachivantara.com/s/article/data-integration-kettle

目前最新的版本为9.3版本,在此我们使用9.1版本的kettle进行安装

安装要求:

  • 安装所在的服务器或者Windows中,需要jdk1.8

在获取到压缩包之后,将压缩包解压至无中文路径下即可,注意,是整体路径中,任何一级目录中都不包含中文

解压后的目录结构如下:

三、kettle的初体验

需求:将一个csv文件中的数据内容输出到Excel文件中

1. 新增转换任务

新增一个转换任务的方式:

2. 配置csv输入组件(step)

3. 配置Excel输出组件(step)

1)通过拖拽的方式将Excel输出放入编辑页面中

2)将输入组件与输出组件连接到一起:

3)双击Excel输出组件,对内容进行配置

4. 创建作业(job)

1)双击【主对象树】中的作业或点击【文件】-【新建】-【作业】

2)每个任务由一个start组件开始

5. 在作业中挂载转换任务

配置转换任务与结束节点

6. 测试运行

保存任务并执行

四、kettle名词解释

1. 转换

转换(transformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各阶段各种对数据的操作。转换包含一个或多个“Step-步骤”,例如读取文件,过滤数据,数据加载等操作都是步骤。转换里的步骤通过“Hop-跳”来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。此外,转换中的每个步骤还可以注释,目的主要是使转换文档化。

每个“Transformation-转换”对应的保存文件名称为“xx.ktr”

2. Step-步骤

Step是转换里的基本组成部分。

“CSV文件输入”

标签:kettle,转换,精讲,Kettle,收藏,Pentaho,组件,ETL
From: https://blog.csdn.net/wozhendeyumenle/article/details/143896466

相关文章

  • ETL之kettle 专业陪伴群,1元开启kettle精进之旅
    1、为啥收取1元?确保只有真正感兴趣或有意愿的用户才会加入。减少无关人员的加入,保持群组的专业性和活跃度。付费入群可以减少垃圾信息的发送,因为发垃圾信息的人不太可能愿意为发送广告付费。2、送人玫瑰手留余香 自从公众号连载了90+篇关于kettle的干活文章,不到半年时间和150......
  • 计算机失业了做什么好?收藏这篇就够了
    首先,如果对技术还有热情,还希望从事编程工作,那么就应该继续努力。程序员面试的时候是造火箭,但实际工作是拧螺丝。八股文准备好,多面试,多总结,之后就知道面试官的套路了,碰到不会就去学,去实践,下次就会了。市面上的公司比你想的要多,不要担心失败,总有公司看上你。不要眼高手低,......
  • 等保测评是什么?(非常详细)零基础入门到精通,收藏这一篇就够了
    等保测评是什么等保测评用于评估网络系统或应用是否满足相应的安全保护等级要求,是网络安全等级保护工作的重要环节之一。开展等保测评能够帮助网络运营者识别系统存在的安全隐患,及时对系统进行整改加固。本文就等保测评的概念、流程以及测评内容进行简要介绍。1等保测评......
  • 100个Python精选库【建议收藏】
    Python为啥这么火,这么多人学,就是因为简单好学,功能强大,整个社区非常活跃,资料很多。而且这语言涉及了方方面面,比如自动化测试,运维,爬虫,数据分析,机器学习,金融领域,后端开发,云计算,游戏开发都有涉及。大概列了一下整个Python库的应用的方法面面,粗略算算就有20几个方向。左右两边分......
  • 自学黑客必看的五本书,满足你的黑客梦,收藏这一篇就够了!
    经常会有粉丝朋友私信我,想学黑客技术有什么书籍推荐,今天我就给大家安利一波。想自学黑客,看这五本书就够了想要自学黑客却没人教怎么办,看完这五本书,你也能成为黑客大佬......
  • 一文带你了解防火墙的三种工作模式:路由模式、透明模式(网桥)、混合模式。网络安全零基础
    防火墙作为网络安全的核心设备之一,扮演着至关重要的角色。它不仅能够有效防御外部网络的攻击,还能保护内部网络的安全。在如今复杂多样的网络环境下,防火墙的部署和工作模式直接影响着网络安全策略的实施效果。防火墙通常可以工作在三种模式下:路由模式、透明模式(网桥模式)以及......
  • 创建一个文章收藏表的mysql
    下面是一个设计合理的文章收藏表(article_favorites)的MySQL表结构,可以用于存储用户收藏文章的记录。表结构设计表名:article_favoritesCREATETABLE`article_favorites`(`id`INTAUTO_INCREMENTPRIMARYKEYCOMMENT'自增ID',`user_id`INTNOTNULL......
  • DAY64||dijkstra(堆优化版)精讲 ||Bellman_ford 算法精讲
    dijkstra(堆优化版)精讲题目如上题47.参加科学大会(第六期模拟笔试)邻接表本题使用邻接表解决问题。邻接表的优点:对于稀疏图的存储,只需要存储边,空间利用率高遍历节点链接情况相对容易缺点:检查任意两个节点间是否存在边,效率相对低,需要O(V)时间,V表示某节点链接其他节点的数......
  • 百度地图、高德地图收藏夹位置信息导出小工具分享
    很多人在地图应用中收藏了很多的位置,但是一旦想要更换地图软件时,就会遇到地图软件里面收藏的位置信息没办法导出的问题。经实际使用发现目前高德地图、百度地图都没有提供收藏夹位置导出的功能。看到贴吧、小红书很多网友在咨询如何将百度地图、高德地图中收藏的位置信息导出,网......
  • Docker不再神秘 ------Ubuntu20.04 安装Docker 及实用技巧,建议收藏
    Dockerdocker是一种容器,简而言之就是别人把一堆环境配置好了,你可以下载下来直接拿来使用(我的个人理解),有点像虚拟机你知道吧。比如下面这样,我直接打开了一个小电脑(docker),里面桌面啊、root啊全都有,跟你ubuntu系统类似,单说细节还不完全一样,毕竟它轻便哈哈……也有一些对比这下......