4.kettle将数据加载到hadoop集群

时间：2023-03-13 15:56:16浏览次数：68

标签：files kettle hadoop Hive job copy 加载

kettle将数据加载到hadoop集群 1..将数据加载到HDFS a)启动Hadoop，创建Job，把文件放进Hadoop b)在桌面上打开PDI(kettle)：选择“文件（file）”-“新建（new）”-“job” c)添加启动项工作：你需要告诉PDI从哪开始的Job，所以点开设计面板的“常规”部分，将一个“start”作业项放到右边面板

c)添加hadoop copy files Job输入：从本地磁盘复制到Hdfs，点开“Big Data”，将“hadoop copy files”的Job放到右边工作区

d)连接“start和hadoop copy files”

e)编辑“hadoop copy files”，双击“hadoop copy files”，输入以下信息:

1.Wildcard (RegExp):输入 ^.*\.txt 2.单击“ADD”将需要的files列表添加进去

f)保存工作：选择“File”->“save as。。。”从系统菜单，转型为 “load_hdfs.kjb”保存到选择的文件夹。 G)运行job：从菜单系统选择“Action”->“Run”或者绿色运行按钮。一个“Execute a job”窗口，执行完之后，可以使用“Execution Results”查看错误信息

H)问题： Problem:Permission denied:user=xxxx, access=Excute, inode=”/user/pdi/weblogs/raw”:raw:hadoop:drwxr-x--- 权限被拒绝：无论在连接什么使用用户名时，要更改用户必须设置环境变量HADOOP_USER_NAME.可以通过更改opt变量 spoon.bat或者spoon.sh: OPT=”$OPT....-DHADOOP_USER_NAME=HadoopNameToSpoof” 2.简单的chrome拓展浏览HDFS volumes 3.将数据加载到Hive a) 建立：启动Hadoop，启动Hive server b) 创建一个Hive表： 1.打开Hive shelll写一个“hive”在command line 2.在hive中创建表：在hive shell中输入

3.输入“quit”关闭hive shell c) 创建一个job来加载Hive 1.同上 2.同上 3.同上 4.同上 d) 编辑“hadoop copy files”，双击“hadoop copy files”，输入以下信息: 1.Wildcard(RegExp)通配符:输入’part-.*’ 2.点击“add”

3.保存job，选择“Flie”->“save as...”

4.将数据加载到Hbase A)启动hadoop，启动hbase 1.打开Hbase shell 2.创建表在Hbase中 3.关闭hbase shell B)创建一个Transformation来加载数据到Hbase 1.“File”->“New”-“Transformation” 2.打开“Input”->“Text file input”

3.点击“Add”

格式选择“Unix”

标签：files,kettle,hadoop,Hive,job,copy,加载
From： https://www.cnblogs.com/zhangdapangzo/p/17211705.html

JS_0074：new Promise await 等待后执行，同步加载加载threejs 加载字体
1，一，使用TextGeometry创建3D文字1.需加载字体配合使用，使用THREE.FontLoader//加载字体loadFont(){returnnewPromise(function(resolve,reject)......
类加载器
类加载器作用类加载的作用将class文件字节码内容加载到内存中，并将这些静态数据转换成方法区的运行时数据结构，然后再堆中生成一个代表这个类的java.lang.Class对象，作为方......
根据请求获取加载进度条
ajaxexportfunctionrequest(options={}){const{url,method='GET',onProgress,data=null}=options;returnnewPromise((resolve)=>{......
类加载和内存分析
类加载和内存分析类加载步骤加载：加载到内存，堆产生一个对应的Class对象链接：进行数据的初始化，将二进制代码合并到JVM运行状态中初始化：初始化代码块，静态代码块的执行(执......
Hadoop
Hadoop主要包括HDFS(存储)/MapReduce(计算)/Yarn(资源调度)特性优点以及注意事项：Hadoop的扩容能力很强：可以通过增加计算机数量来增加节点的数量成本低：通过部署廉价的......
IDEA开启热加载
这里我没有修改，都是默认配置自动编译，可开可不开，记得IDEA编译快捷键即可，有些人的不起作用，默认仅在debug模式启动时会在更改后自动编译修改让自动编译在run模式下也......
Android 关于WebView加载完成的多种监听方式
第一种方式：setWebViewClient()>>>>>>onPageFinished()缺点是6.0以上手机只会调用响应一次，如下：mWebView.setWebViewClient(newWebViewClient(){@Override......
hadoop部署2
完全分布式部署介绍学习目标完全分部式是真正利用多台Linux主机来进行部署Hadoop，对Linux机器集群进行规划，使得Hadoop各个模块分别部署在不同的多台机器上。能够了解......
C# 调用 c++ DLLL试图加载格式不正确的程序。 (异常来自 HRESULT:0x8007000B
网上各种设置目标编译平台为x86都解决不了问题,有可能是DLL依赖的文件的位数有问题1、先查一下被调用的DLL用了那些DLLvs的开发人员工具控制台输入 dumpbin/depe......
如何解决"代码依赖分析,可能会导致对应文件无法加载"的引用报错问题
一、问题现象：uni-app开发小程序微信开发工具报：Error:xxx.js 已被代码依赖分析忽略，无法被其他模块引用。你可根据控制台中的【代码依赖分析】告警信息修改代码，或关闭......

4.kettle将数据加载到hadoop集群

相关文章

赞助商

阅读排行