首页 > 其他分享 >PySpark判断Hdfs文件路径是否存在

PySpark判断Hdfs文件路径是否存在

时间:2023-11-07 16:01:07浏览次数:37  
标签:Hdfs fs pyspark PySpark 路径 try path

背景

从ScalaSpark代码转PySpark代码,同时实现连续读多个文件,避免因某些路径不存在导致程序终止。
在Scala的Spark中可以直接导下面两个模块的包

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

然后调用方法就可以实现对hdfs的文件判断了

val fs = FileSystem.get(conf)
fs.exists(new Path(pathStr))

但PySpark并不能这么实现(我太菜了

查略网上方法

(第一种)[https://www.cnblogs.com/midworld/p/15734257.html]

Pass

(第二种)[https://deepinout.com/pyspark/pyspark-questions/113_pyspark_pyspark_how_to_check_if_a_file_exists_in_hdfs.html]

看着还不错,但我的生产环境导不了这个类,可能pySpark是做了更改的,结果就是不行,Pass/(ㄒoㄒ)/~~

总结

在查略了各种方法都没实现后,突然想到了try-catch最基础的办法,然后我看了下Scala版的Spark源代码,发现也有用到try-catch来实现的

随后开启了不常规操作

for path in path_list:
  try:
    print(path,spark.read.parquet(path).count())
  except:
    print(path + ":路径不存在")

标签:Hdfs,fs,pyspark,PySpark,路径,try,path
From: https://www.cnblogs.com/Mr-Sponge/p/17815188.html

相关文章

  • C#开发的软件在Windows7中出现对路径的访问被拒绝异常
    C#开发的软件在Windows7中出现对路径的访问被拒绝异常在VS2008/VS2010下,右键项目=>属性=>安全性=>直接勾选“启用ClickOnce安全设置”即可解决问题。 创建文件夹和文件时,选择其他盘,比如:D,E,F.不要选择创建到C盘。......
  • 未能注册模块(程序路径)\ieframe.dll提示
    程序安装的时候出现未能注册模块(程序路径)\ieframe.dll提示这种情况的出现,是因为引用的shdocvw.dll,目前发现了一个折中的解决方法,在安装程序里面,可以看到ieframe.dll的一个引用,右击选择排除。这样安装的时候就不会出现这种提示。只要安装的目标机子上有IE6或者IE7,IE8,程序就不会有任......
  • HDFS Balancer存储水位稳定性原理与实践
    1.背景在HDFS分布式系统中,经常会上线新的datanode以环境集群容量不足的问题。但是往往旧datanode水位较高,甚至爆满无法写入,新datanode非常空闲,导致旧机器无法写入数据,集群的流量集中到新datanode中,造成新datanode网络延迟。为了解决上述问题,可以通过Balancer工具定时讲高水位dat......
  • '/webhook'​​​是你的服务器上的一个路径,当有人发送POST请求到这个路径时,​​webhoo
    在这段代码中,'/webhook'是你的服务器上的一个路径,当有人发送POST请求到这个路径时,webhook()函数就会被调用。你可以根据你的需求来选择这个路径,只要它在你的服务器上是唯一的。例如,如果你的服务器的URL是http://myserver.com,那么当飞书机器人发送POST请求到http://myserver.com/web......
  • jumpserver设置sftp默认路径
    jumpserver官网JumpServer是广受欢迎的开源堡垒机,是符合4A规范的专业运维安全审计系统。JumpServer帮助企业以更安全的方式管控和登录所有类型的资产,实现事前授权、事中监察、事后审计,满足等保合规要求。当我们通过jumpserver对服务器进行管理时,需要上传或下载服务器上的......
  • HDFS Distcp数据迁移与优化实践
    1.背景对于HDFS集群而言,不可避免会将一个集群中的数据迁移到另外一个集群中。一般以下几种情况需要进行迁移:hadoop2集群中的项目数据迁移到hadoop3中。hadooprbf的一个子集群block数量在2亿~3亿,需要将大项目迁移到其他空闲子集群。海外项目数据由于历史原因存放到国内集群,根......
  • HDFS冷热存储方案与实践
    1.背景HDFS存储的数据,一般情况下,创建时间越新的数据,访问次数越频繁;创建时间越久远的数据,访问频次越低。在HDFS集群中,默认情况下,所有数据都存放在同一类型介质中,大量访问频次低的数据没有被访问,浪费磁盘的性能。为了合理的降低成本,可以将访问次数频繁的数据存放在高速存储介质中,......
  • 前端学习路径
    前端学习路径B站学习资源整合网络知识(Internet)1.网络工作原理计算机网络原理:https://www.bilibili.com/video/BV1xJ41137Q32.什么是HTTPHTTP协议详解:https://www.bilibili.com/video/BV1js411g7Fw3.浏览器及工作方式浏览器是如何运作的?:https://www.bilibili.com/video/......
  • 并查集,路径压缩
    目录并查集并查集路径压缩并查集并查集:(union-findsets)是一种简单的用途广泛的集合.并查集是若干个不相交集合,能够实现较快的合并和判断元素所在集合的操作,应用很多,如其求无向图的连通分量个数、最小公共祖先、带限制的作业排序,还有最完美的应用:实现Kruskar算法求最小生成树。从......
  • 【专题】2023江苏省工业园区绿色低碳发展路径研究报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=34132自18世纪中期工业革命以来,人类进入工业社会。在历次工业革命中,人类通过发明创造和管理革新,改进生产方式、降低成本、提高效率,随之而来的是生活、物质、文化、教育等各方面的变化,人际关系和社会结构也得以重塑。如今,数字化技术的发展为工业注入......