首页 > 其他分享 >pentaho(keetle)数据同步实践

pentaho(keetle)数据同步实践

时间:2023-08-10 15:55:07浏览次数:39  
标签:keetle bat 同步 转换 作业 sh pentaho Kitchen

pentaho(keetle)数据同步实践

1 pentaho简介

pentaho可读作“彭塔湖”,在keetlepentaho公司收购后改名而来。

pentaho是一款开源ETL工具,纯java编写的C/S模式的工具,可绿色免安装,开箱即用。支持Windows、macOS、Linux平台。

pentaho有2个核心设计,即转换作业

转换是一个包含输入、逻辑处理、输出的完整过程,即ETL。

作业是一个提供定时执行转换的机制,即定时服务调度。

pentaho官网下载链接:Pentaho Community Edition Download | Hitachi Vantara

image

pentaho由主要四部分组成

  • Spoon.bat/Spoon.sh :勺子,是一个图形化界面,可图形化操作转换和作业
  • Pan.bat/Pan.sh : 煎锅,可用命令行方式调用转换
  • Kitchen.bat/Kitchen.sh : 厨房,可用命令行方式调用作业
  • Carte.bat/Carte.sh : 菜单,是一个轻量级web容器,可建立专用、远程的ETL Server

2 pentaho安装

由于是纯java编写,依赖jdk环境。所以需要先配置jdk环境,这里省略。

从官网下载pentaho安装包后,直接解压。

image

重点目录以及执行文件说明

  • lib目录 : 这是依赖库目录,例如各个数据库的jdbc驱动,都放在此目录下
  • logs目录 :这是转换和作业运行的默认日志输出目录
  • simple-jndi目录 :这是各个数据库的JNDI连接信息的全局配置
  • Spoon.bat/Spoon.sh :勺子,是一个图形化界面,可图形化操作转换和作业
  • Pan.bat/Pan.sh : 煎锅,可用命令行方式调用转换
  • Kitchen.bat/Kitchen.sh : 厨房,可用命令行方式调用作业
  • Carte.bat/Carte.sh : 菜单,是一个轻量级web容器,可建立专用、远程的ETL Server

3 数据同步案例

这里使用sqlserverpostgresql同步。在Windows平台上操作。

3.1 执行Spoon.bat文件,启动图形化界面

image

可以看到左侧只有作业转换

3.2 创建一个转换,右键,新建

image

左侧是一些转换插件。

3.3 创建一个数据源输入,展开输入,选择表输入

image

切换到主对象树,选择DB连接,连接数据源。

由于我这里是sqlserver同步到postgresql,所以需要创建sqlserver和postgresql的DB连接

创建连接前,需要先下载sqlserver的 jdbc驱动mssql-jdbc-12.2.0.jre8.jar 和 postgresql的jdbc驱动postgresql-42.6.0.jar,我这里直接选的最新版。

sqlserver的连接

image

​ sqlserver的连接,如果选择JNDI则无法连接,目前猜测可能是驱动版本问题

postgresql的连接

image

点击测试,如果连接成功,则会弹框提示

image

3.4 编辑表输入

image

先选择数据库连接

image

点击获取SQL查询语句,获取数据表

image

选择一个数据表后,会提示是否选择全部字段,选择是

image

image

点击确定,一个表输入就做好了。

3.5 创建一个数据源输出

如果是全表覆盖同步,则选择表输出,因为这里是需要根据主键判断是否重复,重复则更新,否则就插入,因此这里选择 插入/更新

展开输出节点,选择 插入/更新,并将其拖入到右侧图形界面中,然后将表输入连线到当前节点,按住shift+鼠标左键

这里如果不先连线的话,在配置映射字段时,就无法获取源表字段,需要自行输入

image

image

双击进行编辑

image

点击确定后,一个转换就完成了

image

点击左上角的运行按钮,即可执行同步了。


Q1:这是一个单表转换,那如果需要一次同步多个表呢?

A1:那就继续按此步骤进行配置,多表转换配置完成后如下

image

Q2:那表数量很多,这么配置很费时间,有什么更好的办法么?

A2:有。可以编写脚本,正在学习中……


Q3: 前面的转换已经配置完成了,但是只能手动点击运行,能否定时自动运行?

A3:可以。继续看第4节。


4 定时服务

选择文件–>新建–>作业,即可创建一个作业。

image

在作业窗口,选择核心对象,展开通用,选择Start、转换、成功,分别拖入图形界面中,并按顺序连线

image

双击转换就,进行编辑,选择转换文件

无论转换、还是作业,都是以xml文件形式保存在本地

image

此时一个作业即配置完成,但是注意,还没达到定时运行的目的,继续配置

双击Start,对作业进行配置

image

配置完后点击确定,然后点击图形界面的运行按钮,定时服务即启动了

image

在日志输出窗口,可看到服务运行日志

image

至此,pentaho的定时数据同步已完成。


Q4: 定时服务开启后,这个程序窗口被关了或者说程序退出了,服务还运行吗?

A4:不会。由于是C/S模式,客户端服务端一体,进程退出即服务停止


Q5:那有类似后台服务的方式,悄悄运行呢,不被这个界面退出所终止服务?

A5:有。请看第5节。


5 以后台方式运行作业

在介绍中提到,有个Kitchen.bat/Kitchen.sh(厨房)的执行文件,它的作用就是用命令方式调用作业。由于是在Windows平台,所以选择Kitchen.bat执行文件。

打开控制台窗口,进入pentaho安装目录,即Kitchen.bat所在目录,执行如下命令

kitchen /file:{job file path} /level:Basic>>{log file path}

说明:

/file 参数指定 job文件

/level 参数指定日志级别,并写入指定的文件

指定日志文件后,控制台界面就不会输出日志,否则日志会在控制台输出,像下面这样

image


Q6:总开着一个控制台黑框,也不太好,窗口被关了,服务不也停止了吗?有什么更好的方式吗?

A6:是的。有。可以隐藏掉黑窗口,那么继续往下看。


5.1 隐藏控制台窗口

在Kitchen.bat同级目录下创建一个txt文本文件,输入如下内容

@echo off 
if "%1" == "h" goto begin 
mshta vbscript:createobject("wscript.shell").run("%~nx0 h",0)(window.close)&&exit 
:begin
kitchen /file:"替换为job文件路径" /level:Basic>>"替换为日志文件路径"

然后以ANSI编码方式另存为.bat文件。用ANSI编码,是防止文件路径有中文出现乱码。

至此,一个完成的pentaho定时数据同步作业服务就完成了。

标签:keetle,bat,同步,转换,作业,sh,pentaho,Kitchen
From: https://www.cnblogs.com/ycit/p/17620566.html

相关文章

  • 同步辐射散射数据处理分析方法及过程
    同步辐射散射数据处理分析方法及过程同步辐射散射测试是一种先进的材料表征技术,已广泛应用于材料科学、生物学、化学等领域。同步辐射散射技术利用同步辐射光源产生的高亮度辐射,通过散射实验来研究样品的结构、形态和动态行为。同步辐射散射数据处理分析方法:同步辐射散射实验通常包......
  • Linux线程同步(try锁和读写锁)
    (文章目录)前言本篇文章继续讲解Linux线程同步,上篇文章讲解了互斥锁,本篇文章为大家讲解try锁和读写锁。一、try锁在Linux的多线程编程中,try锁是一种非阻塞的锁机制,也称为尝试锁。它允许线程尝试获取锁,如果锁当前是可用的,线程将获取到锁并继续执行,如果锁当前被其他线程持有,则线......
  • 面试题:使用Java代码实现B系统与A系统企业信息定时同步
      java代码实现B系统与A系统企业信息的定时同步.具体要求如下:需要使用ApacheHttpComponentsClient实现接口调用;分页调用接口文档中“获取客户列表”接口接收数据,存储到customer表中;每10分钟同步一次企业信息;A系统企业出现增,删,改,B系统都能够同步;接口调用需要有重试机制......
  • 面试题:使用Java代码实现B系统与A系统企业信息定时同步
      java代码实现B系统与A系统企业信息的定时同步.具体要求如下:需要使用ApacheHttpComponentsClient实现接口调用;分页调用接口文档中“获取客户列表”接口接收数据,存储到customer表中;每10分钟同步一次企业信息;A系统企业出现增,删,改,B系统都能够同步;接口调用需要有重试机制......
  • 面试题:使用Java代码实现B系统与A系统企业信息定时同步
    ​  java代码实现B系统与A系统企业信息的定时同步.具体要求如下:需要使用ApacheHttpComponentsClient实现接口调用;分页调用接口文档中“获取客户列表”接口接收数据,存储到customer表中;每10分钟同步一次企业信息;A系统企业出现增,删,改,B系统都能够同步;接口调用需要有......
  • 面试题:使用Java代码实现B系统与A系统企业信息定时同步
    ​  java代码实现B系统与A系统企业信息的定时同步.具体要求如下:需要使用ApacheHttpComponentsClient实现接口调用;分页调用接口文档中“获取客户列表”接口接收数据,存储到customer表中;每10分钟同步一次企业信息;A系统企业出现增,删,改,B系统都能够同步;接口调用需要有......
  • Linux线程同步(条件变量)
    (文章目录)前言本篇文章来讲解一下条件变量的使用。一、条件变量概念条件变量(ConditionVariable)是并发编程中一种线程同步机制,用于实现线程之间的等待和通知机制。它是一种与特定条件相关的线程同步原语。条件变量用于线程间的协调,允许一个线程在满足某个特定条件之前等待,并......
  • 开放式字幕——声画同步效果
    把窗口调到字母和图形也可以窗口-文本在下面调整字母时间想改样式就在基本图形里面......
  • 并发编程三要素:共享数据、互斥访问和同步机制
    「java、python面试题」来自UC网盘app分享,打开手机app,额外获得1T空间https://drive.uc.cn/s/2aeb6c2dcedd4https://drive.uc.cn/s/6077fc42116d4引言在现代计算机系统中,多线程并发编程已经成为了一种常见的编程范式。并发编程可以充分利用多核处理器的计算能力,提高程序的执......
  • 基于keepalived+gtid半同步主从复制的MySQL集群
    mysql的安装(二进制安装)[root@my-slv1~]#catmysql_install.sh#!/bin/bash#解决软件的依赖关系yuminstallcmakencurses-develgccgcc-c++vimlsofbzip2openssl-develncurses-compat-libs-y#解压mysql二进制安装包tarxfmysql-5.7.38-linux-glibc2.12-x86_64.ta......