PySpark判断Hdfs文件路径是否存在

时间：2023-11-07 16:01:07浏览次数：42

标签：Hdfs fs pyspark PySpark 路径 try path

背景

从ScalaSpark代码转PySpark代码，同时实现连续读多个文件，避免因某些路径不存在导致程序终止。
在Scala的Spark中可以直接导下面两个模块的包

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

然后调用方法就可以实现对hdfs的文件判断了

val fs = FileSystem.get(conf)
fs.exists(new Path(pathStr))

但PySpark并不能这么实现（我太菜了）

查略网上方法

(第一种)[https://www.cnblogs.com/midworld/p/15734257.html]

Pass

(第二种)[https://deepinout.com/pyspark/pyspark-questions/113_pyspark_pyspark_how_to_check_if_a_file_exists_in_hdfs.html]

看着还不错，但我的生产环境导不了这个类，可能pySpark是做了更改的，结果就是不行，Pass/(ㄒoㄒ)/~~

总结

在查略了各种方法都没实现后，突然想到了try-catch最基础的办法，然后我看了下Scala版的Spark源代码，发现也有用到try-catch来实现的

随后开启了不常规操作

for path in path_list:
  try:
    print(path,spark.read.parquet(path).count())
  except:
    print(path + "：路径不存在")

标签：Hdfs,fs,pyspark,PySpark,路径,try,path
From： https://www.cnblogs.com/Mr-Sponge/p/17815188.html

C#开发的软件在Windows7中出现对路径的访问被拒绝异常
C#开发的软件在Windows7中出现对路径的访问被拒绝异常在VS2008/VS2010下,右键项目=>属性=>安全性=>直接勾选“启用ClickOnce安全设置”即可解决问题。创建文件夹和文件时，选择其他盘，比如:D,E,F.不要选择创建到C盘。......
未能注册模块（程序路径）\ieframe.dll提示
程序安装的时候出现未能注册模块（程序路径）\ieframe.dll提示这种情况的出现，是因为引用的shdocvw.dll，目前发现了一个折中的解决方法，在安装程序里面，可以看到ieframe.dll的一个引用，右击选择排除。这样安装的时候就不会出现这种提示。只要安装的目标机子上有IE6或者IE7，IE8，程序就不会有任......
HDFS Balancer存储水位稳定性原理与实践
1.背景在HDFS分布式系统中，经常会上线新的datanode以环境集群容量不足的问题。但是往往旧datanode水位较高，甚至爆满无法写入，新datanode非常空闲，导致旧机器无法写入数据，集群的流量集中到新datanode中，造成新datanode网络延迟。为了解决上述问题，可以通过Balancer工具定时讲高水位dat......
'/webhook'是你的服务器上的一个路径，当有人发送POST请求到这个路径时，webhoo
在这段代码中，'/webhook'是你的服务器上的一个路径，当有人发送POST请求到这个路径时，webhook()函数就会被调用。你可以根据你的需求来选择这个路径，只要它在你的服务器上是唯一的。例如，如果你的服务器的URL是http://myserver.com，那么当飞书机器人发送POST请求到http://myserver.com/web......
jumpserver设置sftp默认路径
jumpserver官网JumpServer是广受欢迎的开源堡垒机，是符合4A规范的专业运维安全审计系统。JumpServer帮助企业以更安全的方式管控和登录所有类型的资产，实现事前授权、事中监察、事后审计，满足等保合规要求。当我们通过jumpserver对服务器进行管理时，需要上传或下载服务器上的......
HDFS Distcp数据迁移与优化实践
1.背景对于HDFS集群而言，不可避免会将一个集群中的数据迁移到另外一个集群中。一般以下几种情况需要进行迁移：hadoop2集群中的项目数据迁移到hadoop3中。hadooprbf的一个子集群block数量在2亿～3亿，需要将大项目迁移到其他空闲子集群。海外项目数据由于历史原因存放到国内集群，根......
HDFS冷热存储方案与实践
1.背景HDFS存储的数据，一般情况下，创建时间越新的数据，访问次数越频繁；创建时间越久远的数据，访问频次越低。在HDFS集群中，默认情况下，所有数据都存放在同一类型介质中，大量访问频次低的数据没有被访问，浪费磁盘的性能。为了合理的降低成本，可以将访问次数频繁的数据存放在高速存储介质中，......
前端学习路径
前端学习路径B站学习资源整合网络知识（Internet）1.网络工作原理计算机网络原理：https://www.bilibili.com/video/BV1xJ41137Q32.什么是HTTPHTTP协议详解：https://www.bilibili.com/video/BV1js411g7Fw3.浏览器及工作方式浏览器是如何运作的？：https://www.bilibili.com/video/......
并查集，路径压缩
目录并查集并查集路径压缩并查集并查集：(union-findsets)是一种简单的用途广泛的集合.并查集是若干个不相交集合，能够实现较快的合并和判断元素所在集合的操作，应用很多，如其求无向图的连通分量个数、最小公共祖先、带限制的作业排序，还有最完美的应用：实现Kruskar算法求最小生成树。从......
【专题】2023江苏省工业园区绿色低碳发展路径研究报告PDF合集分享（附原数据表）
原文链接：https://tecdat.cn/?p=34132自18世纪中期工业革命以来，人类进入工业社会。在历次工业革命中，人类通过发明创造和管理革新，改进生产方式、降低成本、提高效率，随之而来的是生活、物质、文化、教育等各方面的变化，人际关系和社会结构也得以重塑。如今，数字化技术的发展为工业注入......

PySpark判断Hdfs文件路径是否存在

背景

查略网上方法

总结

相关文章

赞助商

阅读排行