首页 > 其他分享 >kettle从入门到精通 第七十六课 ETL之kettle kettle连接hive教程

kettle从入门到精通 第七十六课 ETL之kettle kettle连接hive教程

时间:2024-07-17 10:40:47浏览次数:7  
标签:kettle jar 1.9 hive 所示 连接 ETL

 1、群里有小伙伴询问kettle连接hive的demo,今天抽点时间整理下。其实kettle连接hive和连接mysql数据库也是一样的。

1)kettle中的lib目录下放hive驱动jar,这里我使用的是kyuubi-hive-jdbc-shaded-1.9.0.jar。

2)设置hive连接参数。

3)通过表输入进行读取数据。

 2、下载kyuubi-hive-jdbc-shaded-1.9.0.jar,放到lib目录下面,记得重启kettle spoon。否则不生效

3、设置hive连接参数,我这里只设置了ip地址、数据库名称、端口信息。如下图所示:

 4、拖动表输入到画布,写日志步骤进行打印读取数据。表输入步骤选择之前设置的hive连接,填写select语句。如下图所示:

 

5、点击运行按钮测试,数据可以正常获取。如下图所示:

6、删除kyuubi-hive-jdbc-shaded-1.9.0.jar,重新运行,出现找不到驱动jar错误,如下图所示。

kettle支持的其他数据源也是这个流程,欢迎小伙伴们留言探讨。

 

 

标签:kettle,jar,1.9,hive,所示,连接,ETL
From: https://www.cnblogs.com/zjBoy/p/18297504

相关文章

  • 数据仓库建模工具之一——Hive学习第二天
    Hive的概述1、Hive基本概念1.1 Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。为什么使用Hive?使用hadoop,成本太高,项目要求周期太......
  • [Pnetlab实战演练]手把手教你配置华为防火墙的Telnet远程访问!
    实验介绍关于本实验网络管理员在维护网络过程中,经常需要登录很多设备,通过Console口登录每台设备比较困难,为方便维护与调试设备,通过在设备上配置远程登录功能,使远程管理员能够通过Telnet方式远程登录到设备上进行管理。实验目的通过本实验,掌握配置设备Telnet远程登录功......
  • kettle从入门到精通 第七十五课 ETL之kettle血缘,数据血缘
    在了解kettle血缘之前,咱们先来了解下什么是数据血缘?1、数据血缘定义(来自gpt)数据血缘(DataLineage)是指在数据管理和数据分析中追踪数据的源头、流向和处理过程的能力。具体来说,数据血缘描述了数据如何被创建、变换和移动,以及这些过程中数据的路径和影响。它有助于理解数据的可靠......
  • Hadoop和Hive学习笔记
    Hadoop基础知识什么是Hadoop?Hadoop是Apache软件基金会下的一个开源项目,它允许对大型数据集进行分布式处理。Hadoop的核心组件包括HDFS(Hadoop分布式文件系统)和MapReduce编程模型。HDFS用于存储海量数据,而MapReduce则用于分布式计算。Hadoop的核心组件HDFS(HadoopDistributed......
  • maven拉取pentaho-kettle依赖
    问题pentaho-kettle不在maven中央仓库里,且官方不再维护,所以中央库和阿里镜像库都拉取不到。解决办法添加资源库配置<repositories><repository><id>pentaho-kettle</id><name>pentaho-kettle仓库</name><url>https://repo.orl.eng.hitachi......
  • Hive Metastore(元数据存储服务)
    HiveMetastore(元数据存储服务)在ApacheHive中扮演了关键的角色,其主要作用包括:1.存储表和分区元数据:HiveMetastore负责存储Hive中创建的表的定义信息,包括表的结构(字段名、数据类型)、表的存储格式(如存储在HDFS上的路径)、分区信息等。这些元数据是Hive执行查询和管理表时必......
  • 启动hive元数据服务
    nohuphive--servicemetastore>>metastore.log2>&1&这条命令是用来在后台运行Hive的元数据存储服务(metastore)。让我来逐步解释:1.nohup:是一个Unix/Linux命令,用于在后台运行命令,同时忽略所有挂起(SIGHUP)信号。这意味着,即使用户退出终端或断开与服务器的连接,命令......
  • Hive基础
    1.DDL语句1.1.数据库相关1.1.1.创建数据库CREATE[REMOTE](DATABASE|SCHEMA)[IFNOTEXISTS]database_name[COMMENTdatabase_comment]--DATABASE|SCHEMA:可以互换,表示同一个意思1.1.2.删除数据库DROP(DATABASE|SCHEMA)[IFEXISTS]database_name[RESTRICT|CAS......
  • HIVE面试题
    HIVE优化:场景1.分组聚合groupby导致数据倾斜--map端聚合:aggr=true会在mapper端先groupby一次,最后再把结果merge起来,为了减少reducer处理的数据量指令:Sethive.groupby.mapaggr.checkinterval=1000000Sethive.map.aggr=truesethive.groupby.skewindata=true;......
  • 三分钟了解一款强大的网络设备模拟器:PNETLab
    PNETLab是一个多功能平台,允许用户下载和分享网络实验室给更广泛的社区成员。它主要由两个核心组件组成:PNETLabBox和PNETLabStore,这两个部分各自承担不同的但又相互补充的作用,共同推动网络模拟和教育的发展。官网地址:https://pnetlab.com/特性:下载:实验商店:PNETLabB......