首页 > 其他分享 >kettle_Hbase

kettle_Hbase

时间:2024-06-10 10:04:19浏览次数:20  
标签:hdfs hbase people kettle Hbase HBase

kettle_Hbase

☀Hbase学习笔记 

读取hdfs文件并将sal大于1000的数据保存到hbase中

前置说明:

1.需要配置HadoopConnect 将集群中的/usr/local/soft/hbase-1.4.6/conf/hbase-site.xml复制至Kettle中的

Kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26目录中

2.配置Hadoop Cluster 中Zookeeper的Hostname为master,port为2181

1、在HBase中创建一张people表

hbase(main):004:0> create 'people','info'

2、按下图建立流程图

image.png

  • 文本文件输入

image.png

image.png

  • 设置过滤记录

image.png

  • 设置HBase output

    编辑hadoop连接,并配置zookeeper地址

image.png

image.png

  • 执行转换

image.png

  • 查看hbase people表的数据

    scan 'people'

    注意:若报错没有权限往hdfs写文件,在Spoon.bat中第119行添加参数

    "-DHADOOP_USER_NAME=root" "-Dfile.encoding=UTF-8"

标签:hdfs,hbase,people,kettle,Hbase,HBase
From: https://blog.csdn.net/2301_77836489/article/details/139572179

相关文章

  • kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so e
    场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。解决:使用步骤Blockingstep进行阻塞处理即可。1、下面的demo演示从表t1同步数据至表t2(t1表中有三条数据,t2为空表,两个表表结构相同),然后数据同步完毕之后进......
  • kettle从入门到精通 第六十五课 ETL之kettle 执行动态SQL语句,轻松实现全量&增量数据同
    本次课程的逻辑是同步t1表数据到t2表,t1和t2表的表机构相同,都有id,name,createtime三个字段。 CREATETABLE`t1`(`id`bigintNOTNULLAUTO_INCREMENT,`name`varchar(10)CHARACTERSETutf8mb4COLLATEutf8mb4_general_ciDEFAULTNULL,`createtime`datetime......
  • Kettle调优教程(推荐收藏)
    1、调整JVM大小linux文件路径:data-integration/spoon.sh windows路径: -Xms1024m:设置JVM初始内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。-Xmx2048m:设置JVM最大可用内存为2048M。-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小......
  • kettle从入门到精通 第六十四课 ETL之kettle kettle中执行SQL脚本步骤,使用需当心
    1、群里有不定时会有同学反馈执行SQL脚本步骤使用有问题,那么咱们今天一起来学习下该步骤。trans中的执行SQL脚本有两方面功能,使用时需小心,不然很容易踩坑。官方定义: 翻译:您可以使用此步骤执行SQL脚本,可以选择在转换的初始化阶段执行一次,或者针对步骤接收的每一行输入执行一......
  • Hbase 面试题(六)
    1.简述下HBASE中Split机制?HBase中的Split机制是指将现有的HBase表的Region进行分割的过程。这个过程是HBase自动管理Region的一部分,目的是为了在数据量增长时保持系统的可扩展性和性能。以下是Split机制的关键点:Region定义:在HBase中,表的数据按行键范围分割成多个Regio......
  • Hbase 面试题(五)
    1.简述什么是WAL(WriteAheadLog)预写日志?WAL(WriteAheadLog),即预写日志,是HBase中用于保证数据持久性和一致性的关键机制。以下是WAL的简要概述:目的:WAL的主要目的是在数据实际写入到MemStore之前,先将其记录到一个日志中。这样即使在系统崩溃或故障的情况下,也能够从日......
  • ETLCloud中如何使用Kettle组件
    ETLCloud中如何使用Kettle组件在当今数据驱动的时代,数据处理和分析已成为企业决策的关键。为了更高效地处理海量数据,ETL(Extract, Transform, Load)工具变得至关重要。而在众多ETL工具中,Kettle作为一款开源、灵活且功能强大的工具备受青睐。而在ETLCloud平台上,可以通过Kettle组件......
  • 【YashanDB知识库】kettle从DM8的number类型同步到YashanDB的varchar类型,存入是科学计
    【标题】kettle从DM8的number类型同步到YashanDB的varchar类型,存入是科学计数法形式的数据【问题分类】数据导入导出【关键字】数据同步,number类型,科学计数法【问题描述】客户查询不到准确数据,只看到科学计数法展示的字符串。number类型存入到Oracle(MySQL)的varchar类型是正常......
  • Kettle 从数据库读取数据存到变量中
    布局图JobTransformationsTableinputSELECT'内容'ASINFOFROMDUAL;Setvariables ModifiedJavaScriptvalue Setvariables2 Reference:Kettle连接Oracle使用手册及问题解决方案 ......
  • Kettle 自定义循环 & 更新变量值
    布局图 Setvariables JavaScript(循环逻辑)varmin=newNumber(parent_job.getVariable("MIN"));varmax=newNumber(parent_job.getVariable("MAX"));if(max>=min){true;}else{false;}JavaScript(更新循环条件)varmax=newNum......