• 2024-07-02kettle从入门到精通 第七十四课 ETL之kettle kettle调用https接口教程,忽略SSL校验
    场景:kettle调用https接口,跳过校验SSL。(有些公司内部系统之间的https的接口是没有SSL校验这一说,无需使用用证书的) 解决方案:自定义插件或者自定义jar包通过javascript调用https接口。1、httppost步骤调用https接口,无法通过ssl安全校验,如下图所示:查看了kettle源码之后该步骤
  • 2024-06-22kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程
    场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。 方案:构造页码list,然后循环调用接口。1、总体设计1)、初始化分页参数pageNum=1,pageSize=20,这里的pageSize可以根据自己的需求自行调整,比如每次从接口取数100或者1000等等。2)、第一
  • 2024-06-21Dolphinscheduler调度Kettle
    1、Dolphinscheduler-worker节点安装Kettle安装目录/opt/soft/data-integration2、配置资源仓库,将资源仓库配置文件 repositories.xml文件拷贝到安装目录仓库名称:mysql-repository仓库访问用户:guest仓库访问密码:guest3、创建Kettle任务,并保存到资源仓库任务创建略。任务
  • 2024-06-21kettle从入门到精通 第七十二课 ETL之kettle 三谈http post(含文件上传),彻底掌握参数传递
    场景:群里有个小伙伴在使用httppost步骤调用接口时遇到问题,postman调用正常,但是kettle中调用异常。 解决方案:既然postman调用接口正常,肯定是httppost步骤中某些参数设置的不正确导致的。那就把常用的方式都梳理下,搞定它。 1、httppost请求参数放到body中,Content-Type是appl
  • 2024-06-18kettle从入门到精通 第七十一课 ETL之kettle 再谈http post,轻松掌握body中传递json参数
    场景:kettle中httppost步骤如何发送http请求且传递body参数? 解决方案:httppost步骤中直接设置Requestentityfield字段即可。1、手边没有现成的post接口,索性用python搭建一个简单的接口,关键代码如下(安装python环境略):fromflaskimportFlask,request,jsonifyapp=Fl
  • 2024-06-18java操作kettle
    新建springboot项目引入相关依赖<!--kettle--><dependency><groupId>pentaho-kettle</groupId><artifactId>kettle-core</artifactId><version>9.4.0.0-343</version>&
  • 2024-06-18Windows11[虚拟机] Kettle 通过SSH隧道 连接远程[Mac] Mysql数据库
    Kettle无法直接连接使用SSH通道的MySQL,需要通过SSH隧道(推荐),具体操作如下所示:一、搭建XshellSSH隧道转发1、点击“连接”借助Xshell7,首先创建会话mac(名字随便写),右键-->属性,在弹出窗口中填写名称(随便写),填写主机:SSH隧道的ip地 点击“添加”按钮出现如下,填写源主机:localh
  • 2024-06-16Kettle 数据抽取工具使用教程:从入门到实战
    一、简介Kettle是PentahoDataIntegration(PDI)的一个组成部分,是一个开源的数据集成工具。它被广泛用于数据的抽取、转换和加载(ETL)过程。Kettle提供了一个易于使用的图形界面,可以轻松设计和执行ETL流程。github源码地址:https://github.com/pentaho/pentaho-
  • 2024-06-15kettle从入门到精通 第七十课 ETL之kettle kettle数据校验,脏数据清洗轻松拿捏
    场景:输入在指定的错误(错误应涵盖数据类型不匹配的情况)行数内,trans不报错,但通过错误处理步骤捕捉,并记入文件,整个数据管线正常完成直至处理完最后一个输入行。解决方案:使用步骤【数据检验】进行处理。这个步骤和常规的业务系统对接三方接口一个逻辑,将符合规则的数据放行,不符合的
  • 2024-06-12kettle从入门到精通 第六十八课 ETL之kettle kettle随机数生成的一些方案
    1、在做ETL数据抽取的时候,会用到生成随机数的功能,今天我们一起来学习下如何生成随机数据。如下图所示 2、将生成随机数拉倒画布即可,然后设置字段名称和选择合适的类型,如下图所示:类型:随机数字:生成一个介于0和1之间的随机数随机整数:生成一个随机的32-bit整数随机字符串:基
  • 2024-06-10kettle从入门到精通 第六十七课 ETL之kettle 再谈kettle阻塞,阻塞多个分支的多个步骤
    场景:ETL沟通交流群内有小伙伴反馈,如何多个分支处理完毕之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。解决:使用步骤Blockingstep进行阻塞处理即可。 1、 如下流程图中利用Blockingstep步骤同时阻塞【模拟表输出1】和【模拟表输出2】两个步骤,只有当两个步
  • 2024-06-10kettle_Hbase
    kettle_Hbase☀Hbase学习笔记 读取hdfs文件并将sal大于1000的数据保存到hbase中前置说明:1.需要配置HadoopConnect将集群中的/usr/local/soft/hbase-1.4.6/conf/hbase-site.xml复制至Kettle中的Kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data
  • 2024-06-08kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy
    场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。解决:使用步骤Blockingstep进行阻塞处理即可。1、下面的demo演示从表t1同步数据至表t2(t1表中有三条数据,t2为空表,两个表表结构相同),然后数据同步完毕之后进
  • 2024-06-04kettle从入门到精通 第六十五课 ETL之kettle 执行动态SQL语句,轻松实现全量&增量数据同步
    本次课程的逻辑是同步t1表数据到t2表,t1和t2表的表机构相同,都有id,name,createtime三个字段。 CREATETABLE`t1`(`id`bigintNOTNULLAUTO_INCREMENT,`name`varchar(10)CHARACTERSETutf8mb4COLLATEutf8mb4_general_ciDEFAULTNULL,`createtime`datetime
  • 2024-06-04Kettle调优教程(推荐收藏)
    1、调整JVM大小linux文件路径:data-integration/spoon.sh windows路径: -Xms1024m:设置JVM初始内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。-Xmx2048m:设置JVM最大可用内存为2048M。-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小
  • 2024-06-03kettle从入门到精通 第六十四课 ETL之kettle kettle中执行SQL脚本步骤,使用需当心
    1、群里有不定时会有同学反馈执行SQL脚本步骤使用有问题,那么咱们今天一起来学习下该步骤。trans中的执行SQL脚本有两方面功能,使用时需小心,不然很容易踩坑。官方定义: 翻译:您可以使用此步骤执行SQL脚本,可以选择在转换的初始化阶段执行一次,或者针对步骤接收的每一行输入执行一
  • 2024-05-31ETLCloud中如何使用Kettle组件
    ETLCloud中如何使用Kettle组件在当今数据驱动的时代,数据处理和分析已成为企业决策的关键。为了更高效地处理海量数据,ETL(Extract, Transform, Load)工具变得至关重要。而在众多ETL工具中,Kettle作为一款开源、灵活且功能强大的工具备受青睐。而在ETLCloud平台上,可以通过Kettle组件
  • 2024-05-29【YashanDB知识库】kettle从DM8的number类型同步到YashanDB的varchar类型,存入是科学计数法形式的数据
    【标题】kettle从DM8的number类型同步到YashanDB的varchar类型,存入是科学计数法形式的数据【问题分类】数据导入导出【关键字】数据同步,number类型,科学计数法【问题描述】客户查询不到准确数据,只看到科学计数法展示的字符串。number类型存入到Oracle(MySQL)的varchar类型是正常
  • 2024-05-29Kettle 从数据库读取数据存到变量中
    布局图JobTransformationsTableinputSELECT'内容'ASINFOFROMDUAL;Setvariables ModifiedJavaScriptvalue Setvariables2 Reference:Kettle连接Oracle使用手册及问题解决方案 
  • 2024-05-28Kettle 自定义循环 & 更新变量值
    布局图 Setvariables JavaScript(循环逻辑)varmin=newNumber(parent_job.getVariable("MIN"));varmax=newNumber(parent_job.getVariable("MAX"));if(max>=min){true;}else{false;}JavaScript(更新循环条件)varmax=newNum
  • 2024-05-25kettle从入门到精通 第六十三课 ETL之kettle kettle调用python脚本的两种方法
    kettle中不能直接调用python脚本,可以通过shell脚本和http进行调用pyton服务。一、shell脚本调用python脚本1、下面是一段简单的无参python脚本importosdefmain():#在这里编写Python脚本的主要逻辑print("Hello,thisisaPythonscriptcalledbyshell!")i
  • 2024-05-17kettle从入门到精通 第六十一课 ETL之kettle 任务调度器,轻松使用xxl-job调用kettle中的job和trans
    1、大家都知道kettle设计的job流程文件有个缺点:只能设置简单的定时任务,无法设置复杂的如支持cron表达式的job。 今天给大家分享一个使用xxl-job调度carte的流程文件的示例。整个调度流程图如下: 1)xxl-job-admin,页面可视化配置任务。2)xxl-job-executor,job执行器,通过调用carte
  • 2024-05-16使用kettle同步数据
    如果这篇文章能给你带来帮助,不胜荣幸,如果有错误也请批评指正。共同学习一块进步。题外话:进入了2024.我决定做什么事都要持之以恒,首先是按时学习,按时记笔记,按时复习巩固。刚才看了一下,上年就想写出来,结果没有实现的。今年要好好处理一下这个事! 太多了。好多东西觉得是个知
  • 2024-05-15kettle从入门到精通 第六十课 ETL之kettle for循环处理每条数据,so easy!
    1、kettle原生是支持for循环处理的,无需通过javascript脚本或者java脚本开发for循环控制。当然如果想通过脚本挑战下也是可以的。本节课主要讲解如何通过kettle中的job来实现for循环控制,如下图所示:1)步骤【设置变量】设置单个job级别的变量。2)步骤【转换】加载数据集清单列表,返
  • 2024-05-12kettle从入门到精通 第五十九课 ETL之kettle 邮件发送多个附件,使用正则轻松解决
    问题场景:一个朋友说他用kettle将生成好的多个文件(a.xls和b.xls,文件在data目录下)发送给客户,但是data目录下还有其他的文件,他如果指定data目录发送会把data目录下面的所有文件都作为附件进行发送,显然不符合要求,所以他当时的临时解决方法是创建个临时目录,里面只放a.xls和b.xls两个