首页 > 编程语言 >Java API 读取HDFS目录下的所有文件

Java API 读取HDFS目录下的所有文件

时间:2023-04-26 13:32:16浏览次数:40  
标签:HDFS fs Java String -- 011 DELIMITER API new


/**
 * 获取1号店生鲜食品的分类id字符串
 * @param filePath
 * @return
 */
public String getYHDSXCategoryIdStr(String filePath) {
	final String DELIMITER = new String(new byte[]{1});
	final String INNER_DELIMITER = ",";
	
	// 遍历目录下的所有文件
	BufferedReader br = null;
	try {
		FileSystem fs = FileSystem.get(new Configuration());
		FileStatus[] status = fs.listStatus(new Path(filePath));
		for (FileStatus file : status) {
			if (!file.getPath().getName().startsWith("part-")) {
				continue;
			}
			
			FSDataInputStream inputStream = fs.open(file.getPath());
			br = new BufferedReader(new InputStreamReader(inputStream));
			
			String line = null;
			while (null != (line = br.readLine())) {
				String[] strs = line.split(DELIMITER);
				String categoryId = strs[0];
				String categorySearchName = strs[9];
				if (-1 != categorySearchName.indexOf("0-956955")) {
					yhdsxCategoryIdStr += (categoryId + INNER_DELIMITER);
				}
			}// end of while
		}
	} catch (IOException e) {
		e.printStackTrace();
	} finally {
		try {
			br.close();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
	
	return yhdsxCategoryIdStr;
}

 

HDFS上的目录、文件:

 

-bash-3.2$ hadoop fs -ls /user/hive/warehouse/category
Found 2 items
-rw-r--r--   2 basicdata supergroup          0 2014-08-18 01:05 /user/hive/warehouse/category/_SUCCESS
-rw-r--r--   2 basicdata supergroup    1117233 2014-08-18 01:05 /user/hive/warehouse/category/part-m-00000

文件内容:

 

 

-bash-3.2$ hadoop fs -cat /user/hive/warehouse/category/part-* | more
52880000052880杂粮组合51621010-5135-5162-5288:食品-粮油-杂粮组合011
9726780009726787茶具19650290040-950340-965029-972678:家居-餐具水具-茶具1011
9701550009701557菲士康196046510null0-960464-960465-970155:隐形眼镜(药网)-普通隐形眼镜-菲士康1011
9702350009702356生活服务000180-970235:生活服务011
9702360009702367SIM卡9635241030-957328-963524-970236:手机通讯/数码电器-运营商-SIM卡011
9737840009737842鞋包配饰97377810null0-960665-960768-973775-973778-973784:1号礼品中心-时尚创意礼品-定制品-个性定制-鞋包配饰011
5315T602个人清洁5183190null0-5134-5183-5315:厨卫清洁-清洁剂-个人清洁111
5316T603家用清洁5183190null0-5134-5183-5316:厨卫清洁-清洁剂-家用清洁111
5317UD02蛋制品1516110null0-5135-5161-5317:食品饮料-腌制品1-蛋制品1111
5318UD030肉制品5161180null0-5135-5161-5318:食品饮料-腌制品-肉制品111

标签:HDFS,fs,Java,String,--,011,DELIMITER,API,new
From: https://blog.51cto.com/u_16087105/6227124

相关文章

  • Java8 Lambda表达式教程
    1.什么是λ表达式 λ表达式本质上是一个匿名方法。让我们来看下面这个例子:   publicintadd(intx,inty){       returnx+y;   }转成λ表达式后是这个样子:       (intx,inty)->x+y;参数类型也可以省略,Java编译器会根据上下文推断出来:  ......
  • 初探Java框架
    (一)什么是Java框架?1.概念Java框架就是一些类和接口的集合,通过这些类和接口协调来完成一系列的程序实现。框架又叫做开发中的半成品,它不能提供整个WEB应用程序的所有东西,但是有了框架,我们就可以集中精力进行业务逻辑的开发而不用去关心它的技术实现以及一些辅助的业务逻辑。说白......
  • Java中抽象类和接口的区别?
    什么是抽象类?抽象类是对具体概念的抽象抽象类本质是为了继承只能被public或默认修饰行为层面抽象出来抽象方法抽象类的注意事项抽象类不可以被直接实例化抽象类中可以存在构造方法抽象类可以存在普通方法抽象方法的注意抽象方法必须定义在抽象类中仅声明实现......
  • 从 API 网关聊到 API 管理
    在API管理中,通常会有这些痛点:1.企业不清楚到底有多少个API,无法形成API资产管理等问题。2.API在不同集群的生命周期问题。3.API运行状态监控和告警问题。4.API请求限流、流量控制以及安全等问题。 那如何解决这些痛点呢? Apinto的API管理提供API生命周期控制:可管理所......
  • 若依vue框架添加kotlin依赖,实现kotlin和java混合编译
    第一步:在最外部pom.xml文件添加版本号和依赖管理properties添加版本号<kotlin.version>1.4.21</kotlin.version><!--启用kotlin增量编译--><kotlin.compiler.incremental>true</kotlin.compiler.incremental>dependencyManagement添加依赖管理<!-......
  • 【FAQ】关于JavaScript版本的华为地图服务Map的点击事件与Marker的点击事件存在冲突的
    一. 问题描述创建地图对象,并添加marker标记,对map和marker均添加了点击事件;<body><script>functioninitMap(){//创建地图对象constmap=newHWMapJsSDK.HWMap(document.getElementById('map'),{center:{lat:39.36322,lng:......
  • java面试题--核心知识
    一、HashMap和HashTable的区别?二、HashMap有哪些线程安全的方式?三、HashMap在扩容上有哪些优化? 难点三、为什么ConcurrentHashMap是线程安全的?四、java锁机制?无锁偏向锁轻量级锁重量级锁五、对AQS抽象队列同步器的理解?https://baijiahao.baidu.com/s?id=1709429801......
  • Java8 教程_编程入门自学教程_菜鸟教程-免费教程分享
    教程简介Java8(又称为jdk1.8)是Java语言开发的一个主要版本。Java8是oracle公司于2014年3月发布,可以看成是自Java5以来最具革命性的版本。Java8为Java语言、编译器、类库、开发工具与JVM带来了大量新特性。Java8入门教程-从简单的步骤了解Java8,从基本到高级概......
  • JavaScript方法获取屏幕缩放比例与分辨率
    我们在开发一些前端页面的时候,会考虑到一些设备屏幕的兼容性问题,这个时候需要根据屏幕的分辨率以及缩放比例来进行实时的宽高设定,所以我总结了用JavaScript方法进行获取用户电脑屏幕的分辨率和缩放比例的数据:  获取屏幕缩放比例//获取屏幕缩放比例functiongetRatio(){......
  • Java的JDBC链接
    importjava.sql.*;//导入数据库操作的包,这种方式是将sql下面的所有的实体类都进行导入publicclassJDBCConnect{staticConnectionconnection=null;//characterEncoding=utf8设置编码格式为utf8,serverTimezone=GMT+8设置时区,在mysql8.0+的url需要添加时区,该......