kettle将数据加载到hadoop集群 1..将数据加载到HDFS a)启动Hadoop,创建Job,把文件放进Hadoop b)在桌面上打开PDI(kettle):选择“文件(file)”-“新建(new)”-“job” c)添加启动项工作:你需要告诉PDI从哪开始的Job,所以点开设计面板的“常规”部 分,将一个“start”作业项放到右边面板
c)添加hadoop copy files Job输入:从本地磁盘复制到Hdfs,点开“Big Data”,将“hadoop copy files”的Job放到右边工作区
d)连接“start和hadoop copy files”
e)编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信息:
1.Wildcard (RegExp):输入 ^.*\.txt 2.单击“ADD”将需要的files列表添加进去
f)保存工作:选择“File”->“save as。。。”从系统菜单,转型为 “load_hdfs.kjb”保存到选择的文件夹。 G)运行job:从菜单系统选择“Action”->“Run”或者绿色运行按 钮。一个“Execute a job”窗口,执行完之后,可以使用“Execution Results”查看错误信息
H)问题: Problem:Permission denied:user=xxxx, access=Excute, inode=”/user/pdi/weblogs/raw”:raw:hadoop:drwxr-x--- 权限被拒绝:无论在连接什么使用用户名时,要更改用户必须设 置环境变量HADOOP_USER_NAME.可以通过更改opt变量 spoon.bat或者spoon.sh: OPT=”$OPT....-DHADOOP_USER_NAME=HadoopNameToSpoof” 2.简单的chrome拓展浏览HDFS volumes 3.将数据加载到Hive a) 建立:启动Hadoop,启动Hive server b) 创建一个Hive表: 1.打开Hive shelll写一个“hive”在command line 2.在hive中创建表:在hive shell中输入
3.输入“quit”关闭hive shell c) 创建一个job来加载Hive 1.同上 2.同上 3.同上 4.同上 d) 编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信 息: 1.Wildcard(RegExp)通配符:输入’part-.*’ 2.点击“add”
3.保存job,选择“Flie”->“save as...”
4.将数据加载到Hbase A)启动hadoop,启动hbase 1.打开Hbase shell 2.创建表在Hbase中 3.关闭hbase shell B)创建一个Transformation来加载数据到Hbase 1.“File”->“New”-“Transformation” 2.打开“Input”->“Text file input”
3.点击“Add”
格式选择“Unix” 标签:files,kettle,hadoop,Hive,job,copy,加载 From: https://www.cnblogs.com/zhangdapangzo/p/17211705.html