在 Python 类型提示中区分 PySpark 和 Pandas DataFrame (PyCharm)

时间：2024-07-27 04:20:29浏览次数：15

标签：python pandas pycharm python-typing

在 PyCharm 中，如果使用 a pyspark.sql.DataFrame 代替 pandas.DataFrame ，类型提示似乎不会触发警告，反之亦然。

例如以下代码根本不会生成任何警告：

from pyspark.sql import DataFrame as SparkDataFrame
from pandas import DataFrame as PandasDataFrame

def test_pandas_to_spark(a: PandasDataFrame) -> SparkDataFrame:
    return a

def test_spark_to_pandas(b: SparkDataFrame) -> PandasDataFrame:
    return b.toPandas()

test_spark_to_pandas(PandasDataFrame({'a': [1, 2, 3]}))

这是否已知/可以修复吗？

顺便说一句：我确实安装了 pyspark 存根： pyspark-stubs==2.4.0.post2

你观察到的行为是 PyCharm 类型提示系统的一个已知限制。尽管 PySpark 和 Pandas DataFrames 是不同的类型，但 PyCharm 的类型推断机制无法始终有效地区分它们，尤其是在涉及跨库操作时，例如在你的示例中将 Pandas DataFrame 转换为 PySpark DataFrame。

原因：

鸭子类型： Python 是一种动态类型语言，它依赖于鸭子类型。这意味着它更关注对象的行为而不是其显式类型。由于 PySpark 和 Pandas DataFrames 共享许多常见方法和属性（例如 select 、 filter 、 groupby ），因此类型检查器难以在没有明确类型提示的情况下区分它们。
运行时行为： PySpark DataFrames 的实际类型在运行时确定，具体取决于 Spark 上下文。 PyCharm 的静态分析工具可能无法始终准确推断此运行时信息，从而导致类型检查不精确。

可能的解决方案和解决方法：

显式类型转换： 在将一个 DataFrame 类型传递给需要另一个类型的函数之前，使用显式类型转换函数。这将有助于 PyCharm 理解预期类型并提供更准确的类型提示。 ```python import pandas as pd from pyspark.sql import SparkSession from pyspark.sql import DataFrame as SparkDataFrame from pandas import DataFrame as PandasDataFrame

spark = SparkSession.builder.getOrCreate()

def test_pandas_to_spark(a: PandasDataFrame) -> SparkDataFrame: # 显式转换为 Spark DataFrame return spark.createDataFrame(a)

def test_spark_to_pandas(b: SparkDataFrame) -> PandasDataFrame: return b.toPandas()

test_spark_to_pandas(spark.createDataFrame(pd.DataFrame({'a': [1, 2, 3]}))) ```
MyPy 与存根： 考虑将 MyPy 与 PySpark 存根一起使用，以获得更强大的类型检查。 MyPy 是一个静态类型检查器，可以更深入地分析代码并识别类型不匹配。 PySpark 存根为 PySpark API 提供了类型提示，帮助 MyPy 更有效地理解 PySpark 代码。
PyCharm 配置： 确保 PyCharm 已正确配置为使用 PySpark 和相关的类型提示。检查你的项目解释器设置，并验证是否已安装并启用 PySpark 和 pyspark-stubs 包。

注意： 尽管类型提示改进可以提高代码质量和可维护性，但请记住，它们主要用于开发时分析。 Python 仍然是一种动态类型语言，并且在运行时不会强制执行类型提示。

标签：python,pandas,pycharm,python-typing
From： 57074149

如何在Python中继承类型提示？
所以我的问题是，当我有一个A类型的类来做事情并且我使用这些函数作为subclass(B)时，它们仍然是类A的类型，并且不接受我的类B对象作为参数或作为函数签名。我的问题简化了：fromtypingimportTypeVar,Generic,CallableT=TypeVar('T'......
Python - 如何传递类对象的函数参数类型（打字）
我想python3.7附带了（不确定），不仅可以将变量名传递给函数，还可以传递变量的类型。我想知道的是是否有可能传递特定类的类型。以同样的方式传递：deffoo_func(i:int)->None:pass如果我有一个类，让我们说：classfoo_class(object):pass我如何转换fo......
Numpy&Pandas：pandas库的安装，不同对象的建立，文件的导入和了解数据
目录前言一、Pandas库的安装二、不同对象的建立1.Series对象的创建1.用index方法指定索引2.在创建的时候就指定索引3.使用字典的方式创建4.将一个常量与index一起传入创建5.输出值和索引2.DataFrame对象的创建1.不指定列名则以键当列名行索引为默认值2.columns指......
ubuntu系统中安装PyQt5，并在Pycharm中配置
本文详细讲述了在Ubuntu22.04中安装PyQt5的过程，并在Pycharm中导入了两个PyQt5的模块。第一步：打开终端，输入以下指令下载pyqt5:sudoaptinstallpyqt5* 输入“y”继续…第二步：输入以下指令，安装pyqt5相应的工具：并输入“y”继续：sudoaptinstallqttools5-dev-tool......
使用 Python 构建简单 REST API
使用Python构建简单RESTAPI1.概述本技术文档旨在指导开发者使用Python框架Flask构建一个基本的RESTAPI。通过学习本指南，您将掌握创建、读取、更新和删除(CRUD)操作的基本知识，并能够使用Python构建自己的API。2.安装依赖首先，您需要确保已安装Python和Flask......
Python——Pandas（第二讲）
文章目录变量类型的转换Pandas支持的数据类型在不同数据类型间转换建立索引新建数据框时建立索引读入数据时建立索引指定某列为索引列将索引还原变量列引用和修改索引引用索引修改索引修改索引名修改索引值更新索引Series的索引和切片DataFrame的索引和切片选择列按......
基于Python+Django的红色文化研学网站设计与实现
......
【python】对网站进行请求-初识
python实现对网站进行请求代码如下importrequestsdefget_data(url,headers=None,params=None,timeout=10):try:res=requests.get(url,headers=headers,params=params,timeout=timeout)res.raise_for_status()returnres.text......
【python】Django初识-从未有如此美妙的开局
Django初识python、Django安装与验证python安装Python官网https://www.python.org/Django安装pipinstallDjango验证python是否安装成功python--version验证Django是否安装成功python3-mdjango--version创建第一个Django项目项目创建与服务器启动打开cmd，输......
Python虚拟环境创建、激活、使用，项目依赖导出、安装requestments.txt
Python虚拟环境通过命令行终端创建python虚拟环境：新建一个文件夹，可以专门用来存放虚拟环境，这里在D盘创建Python_Virtual_Environment_test文件夹然后在这里输入cmd按回车键进入命令行终端此时打开的位置就是当前的路径，当然也可以 cd一步步进入到目标路径创建环境......

在 Python 类型提示中区分 PySpark 和 Pandas DataFrame (PyCharm)

相关文章

赞助商

阅读排行