hdfs解决hadoop海量数据的存储。
shell 命令(所有hadoop fs 可由 hdfs dfs代替)
(1) 在hdfs上创建目录
hadoop fs -mkdir 目录名
(2) 本地文件的上传
hadoop fs -copyFromLocal 本地文件路径 目标目录路径 (复制)
hadoop fs -moveFromLocal 本地文件路径 目标目录路径 (剪切)
hadoop fs -put 本地文件路径 目标目录路径 (复制常用)
hadoop fs -appendToFile 本地文件路径 目标文件路径 (将本地文件内容追加到目标文件末尾)
(3)文件下载
hadoop fs -copyToLocal hdfs文件路径 本地目录路径
hadoop fs -get hdfs文件路径 本地目录路径
(4) HDFS直接操作
hadoop fs -ls 目标目录信息 (显示目录信息)
hadoop fs -cat 目标文件 (显示文件内容)
hadoop fs -chgrp、-chmod、-chown 文件 (修改文件所属权限)
hadoop fs -mkdir 文件路径 (创建路径)
hadoop fs -cp 原文件/目录路径 目标文件/目录路径 (从HDFS的一个路径拷贝到HDFS的另一个路径)
hadoop fs -mv 原文件/目录路径 目标文件/目录路径 (在HDFS目录中移动文件
hadoop fs -rm 目标文件 (删除文件或文件夹)
hadoop fs -rm -r 目标文件 (递归删除目录及目录里面内容)
hadoop fs -du 目标文件 (统计文件夹的大小信息)
hadoop fs -setrep 数量 目标文件 (设置HDFS中文件的副本数量,注意副本数量有实际节点数量的最大限度)
Hdfs的Java API操作
首先通过windows使用javaAPI对hdfs文件进行操做,需要在windows上安装hadoop并配置环境变量
创建maven工程
在pom.xml添加依赖
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>
对hdfs的文件操作流程一般都是3步:(1)获取客户端对象(2)执行命令操作(3)关闭资源
在resources创建配置文件
创建hdfs-site.xml,可以根据需求改一些参数(当然也可以不建在代码中修改)
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
注意参数的使用
/**
* 参数优先级
* hdfs-default.xml => hdfs-site.xml => 在项目资源目录下配置文件 => 代码里面的配置,如configuration.set("dfs.replication","1");
*/
创建log4j.properties
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
工程截图
代码展示
package com.rsh.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.After; import org.junit.Before; import org.junit.Test; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.Arrays; /** * 1. 获取客户端对象 * 2. 执行命令 * 3. 关闭资源 * hdfs和zookeeper */ public class HdfsClient { /** * 参数优先级 * hdfs-default.xml => hdfs-site.xml => 在项目资源目录下配置文件 => 代码里面的配置,如configuration.set("dfs.replication","1"); */ private FileSystem fs; @Before public void init() throws URISyntaxException, IOException, InterruptedException { URI uri = new URI("hdfs://hadoop102:8020"); Configuration configuration = new Configuration(); configuration.set("dfs.replication","1"); fs = FileSystem.get(uri,configuration,"rsh"); } //创建文件 @Test public void testMkdirs() throws URISyntaxException, IOException, InterruptedException { //2.创建目录 fs.mkdirs(new Path("/wangjianmin/SoftEngineer")); } //上传 @Test public void testPut() throws IOException { //参数一:是否删除本地原数据,参数二:是否允许覆盖,参数三:原数据路径,参数四:目的路径 fs.copyFromLocalFile(true,true,new Path("D:\\mavenproject\\hadooptest\\src\\main\\demo\\bigdata2.txt"),new Path("hdfs://hadoop102/wangjianmin/bigdata")); } //下载 @Test public void testGet() throws IOException { //参数一:是否删除hdfs上的原数据,参数二:原数据路径,参数三:本地目标文件路径,参数四:是否开启本地数据校验 fs.copyToLocalFile(false,new Path("hdfs://hadoop102/wangjianmin"),new Path("D:\\mavenproject\\hadooptest\\src\\main\\demo"),true); } //删除 @Test public void testRm() throws IOException { /** * 可以删除文件 * 可以删除目录,党删除非空目录时,要递归删除 */ //fs.delete(new Path("/jdk-8u212-linux-x64.tar.gz")); //删除文件 //fs.delete(new Path("/wcinput"),false); //删除空目录 fs.delete(new Path("/computer"),true); } //更名和移动 @Test public void testmv() throws IOException { fs.rename(new Path(""),new Path("")); } //读取文件信息 @Test public void fileDetail() throws IOException { RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true); while (listFiles.hasNext()){ LocatedFileStatus fileStatus = listFiles.next(); System.out.println("------"+fileStatus.getPath()+"-------"); System.out.println(fileStatus.getOwner()); System.out.println(fileStatus.getGroup()); System.out.println(fileStatus.getLen()); System.out.println(fileStatus.getPermission()); System.out.println(fileStatus.getModificationTime()); System.out.println(fileStatus.getReplication()); System.out.println(fileStatus.getPath().getName()); BlockLocation[] blockLocations = fileStatus.getBlockLocations(); System.out.println(Arrays.toString(blockLocations)); } } @After public void close() throws IOException { fs.close(); } }
标签:hdfs,shell,文件,路径,hadoop,fs,JavaAPI,log4j From: https://www.cnblogs.com/20203923rensaihang/p/17128724.html