首页 > 其他分享 >4.kettle将数据加载到hadoop集群

4.kettle将数据加载到hadoop集群

时间:2023-03-13 15:56:16浏览次数:63  
标签:files kettle hadoop Hive job copy 加载

kettle将数据加载到hadoop集群 1..将数据加载到HDFS a)启动Hadoop,创建Job,把文件放进Hadoop b)在桌面上打开PDI(kettle):选择“文件(file)”-“新建(new)”-“job” c)添加启动项工作:你需要告诉PDI从哪开始的Job,所以点开设计面板的“常规”部    分,将一个“start”作业项放到右边面板

 

 

c)添加hadoop copy files Job输入:从本地磁盘复制到Hdfs,点开“Big Data”,将“hadoop              copy files”的Job放到右边工作区

 

 

d)连接“start和hadoop copy files”

 

 

e)编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信息:

 

 

1.Wildcard (RegExp):输入 ^.*\.txt 2.单击“ADD”将需要的files列表添加进去  

 

 

f)保存工作:选择“File”->“save as。。。”从系统菜单,转型为  “load_hdfs.kjb”保存到选择的文件夹。 G)运行job:从菜单系统选择“Action”->“Run”或者绿色运行按 钮。一个“Execute a job”窗口,执行完之后,可以使用“Execution    Results”查看错误信息

 

 

H)问题: Problem:Permission denied:user=xxxx, access=Excute,     inode=”/user/pdi/weblogs/raw”:raw:hadoop:drwxr-x--- 权限被拒绝:无论在连接什么使用用户名时,要更改用户必须设    置环境变量HADOOP_USER_NAME.可以通过更改opt变量  spoon.bat或者spoon.sh: OPT=”$OPT....-DHADOOP_USER_NAME=HadoopNameToSpoof” 2.简单的chrome拓展浏览HDFS volumes 3.将数据加载到Hive a)         建立:启动Hadoop,启动Hive server b)         创建一个Hive表: 1.打开Hive shelll写一个“hive”在command line 2.在hive中创建表:在hive shell中输入

 

 

3.输入“quit”关闭hive shell c)      创建一个job来加载Hive 1.同上 2.同上 3.同上 4.同上 d)      编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信 息: 1.Wildcard(RegExp)通配符:输入’part-.*’ 2.点击“add”

 

 

3.保存job,选择“Flie”->“save as...”

 

 

  4.将数据加载到Hbase A)启动hadoop,启动hbase 1.打开Hbase shell 2.创建表在Hbase中 3.关闭hbase shell B)创建一个Transformation来加载数据到Hbase 1.“File”->“New”-“Transformation”   2.打开“Input”->“Text file input”

 

 

3.点击“Add”  

 

 

格式选择“Unix”

标签:files,kettle,hadoop,Hive,job,copy,加载
From: https://www.cnblogs.com/zhangdapangzo/p/17211705.html

相关文章

  • JS_0074:new Promise await 等待后执行,同步加载 加载threejs 加载字体
    1,一,使用TextGeometry创建3D文字1.需加载字体配合使用,使用THREE.FontLoader//加载字体loadFont(){returnnewPromise(function(resolve,reject)......
  • 类加载器
    类加载器作用类加载的作用将class文件字节码内容加载到内存中,并将这些静态数据转换成方法区的运行时数据结构,然后再堆中生成一个代表这个类的java.lang.Class对象,作为方......
  • 根据请求获取加载进度条
    ajaxexportfunctionrequest(options={}){const{url,method='GET',onProgress,data=null}=options;returnnewPromise((resolve)=>{......
  • 类加载和内存分析
    类加载和内存分析类加载步骤加载:加载到内存,堆产生一个对应的Class对象链接:进行数据的初始化,将二进制代码合并到JVM运行状态中初始化:初始化代码块,静态代码块的执行(执......
  • Hadoop
    Hadoop主要包括HDFS(存储)/MapReduce(计算)/Yarn(资源调度)特性优点以及注意事项:Hadoop的扩容能力很强:可以通过增加计算机数量来增加节点的数量成本低:通过部署廉价的......
  • IDEA开启热加载
    这里我没有修改,都是默认配置自动编译,可开可不开,记得IDEA编译快捷键即可,有些人的不起作用,默认仅在debug模式启动时会在更改后自动编译修改让自动编译在run模式下也......
  • Android 关于WebView加载完成的多种监听方式
    第一种方式:setWebViewClient()>>>>>>onPageFinished()缺点是6.0以上手机只会调用响应一次,如下:mWebView.setWebViewClient(newWebViewClient(){@Override......
  • hadoop部署2
     完全分布式部署介绍学习目标完全分部式是真正利用多台Linux主机来进行部署Hadoop,对Linux机器集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上。能够了解......
  • C# 调用 c++ DLLL试图加载格式不正确的程序。 (异常来自 HRESULT:0x8007000B
     网上各种设置目标编译平台为x86都解决不了问题,有可能是DLL依赖的文件的位数有问题1、先查一下被调用的DLL用了那些DLLvs的开发人员工具控制台输入 dumpbin/depe......
  • 如何解决"代码依赖分析,可能会导致对应文件无法加载"的引用报错问题
    一、问题现象:uni-app开发小程序微信开发工具报:Error:xxx.js 已被代码依赖分析忽略,无法被其他模块引用。你可根据控制台中的【代码依赖分析】告警信息修改代码,或关闭......