一、mysql通过hdfs导入到hive—spoon
首先要在要在主对象树里边ADD一个hadoop
然后在文件安装位置找到这个
next后会出现这个,然后就可以把这页面关闭
然后新建项目
选择这两个,如果没有选择选项,重启软件就会有了
然后选择这几个文件
从服务器hadoop etc的配置文件中下载如下4个配置文件,覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25中的4个同名文件
后边就只填hdfs的信息,ip地址和端口号
然后点击这个
出现这个代表,hdfs配置好了
然后建立文件传输
配置如下
获取字段后,就可以运行上传到hdfs上边
注意!!!!!!!!!!!!一下这一点
在配置hdfs的上传路径的时候又两个选择
一、:路径上写一个hdfs没有同名的文件路径,他会自动创建,否则会报以下错误
二、:出现以上报错,可以给同名的文件路径赋权限,给最高的777权限
hdfs dfs -chmod -R 777 /home
给权限之后,就不会报这个错误
hdfs,传数据到hive
当数据传到hdfs后才能下载到hive上边,这时候需要在spoon上边执行sql语句,但是在执行sql语句前hive要提前建好一个和hdfs字段一样的表才能下载到hive上边
步骤如下
执行sql语句后,就可以下载到hive,当然hdfs的上创建的文件也会没有,回到hive上边
二、mysql直接导到hive
如果mysql直接导入hive会报错,不能直接导入,需要调一下设置
当出现这个错误的时候需要调,如果没有就不需要调
有时候,运行成功,有时候只能导入 2 条数据,然后报错,可以在 hive 的 conf 下的 .hiverc 下,添加如下:
set hive.stats.column.autogather=false;
标签:hdfs,文件,hive,导入,报错,mysql
From: https://blog.csdn.net/KasarJ/article/details/142183354