Pyspark 数据框不返回值超过 8 位的行

时间：2024-07-25 13:12:48浏览次数：17

标签：python dataframe apache-spark pyspark apache-spark-sql

我在 Pyspark 中创建了一个示例数据框，ID 列包含一些超过 8 位数字的值。但它仅返回 ID 字段中的值少于 8 位的行。任何人都可以建议如何编写适当的代码，如果条件匹配，该代码将返回所有值。

# importing sparksession from pyspark.sql module 
from pyspark.sql import SparkSession 
  
# creating sparksession and giving an app name 
spark = SparkSession.builder.appName('sparkdf').getOrCreate() 
data = [["2116722", "sravan", "company 1"], 
        ["2716722", "ojaswi", "company 2"], 
        ["2119722", "bobby", "company 3"], 
        ["21156311722", "sravan", "company 1"], 
        ["21422", "ojaswi", None], 
        ["2216722", "rohith", "company 2"], 
        ["3116722672", "gnanesh", "company 1"], 
        ["2156722", None, "company 2"], 
        ["4115666122", "bobby", "company 3"], 
        ["21190745", "rohith", "company 2"]] 
  
# specify column names 
columns = ['ID', 'Employee NAME', 'Company Name'] 
  
# creating a dataframe from the lists of data 
dataframe = spark.createDataFrame(data, columns) 
dataframe.where(dataframe["ID"] > 100000).show()

输出：

+--------+-------------+------------+
|      ID|Employee NAME|Company Name|
+--------+-------------+------------+
| 2116722|       sravan|   company 1|
| 2716722|       ojaswi|   company 2|
| 2119722|        bobby|   company 3|
| 2216722|       rohith|   company 2|
| 2156722|         NULL|   company 2|
|21190745|       rohith|   company 2|
+--------+-------------+------------+

预期输出

+--------+-------------+------------+
|      ID|Employee NAME|Company Name|
+--------+-------------+------------+
| 2116722|       sravan|   company 1|
| 2716722|       ojaswi|   company 2|
| 2119722|        bobby|   company 3|
| 2216722|       rohith|   company 2|
| 2156722|         NULL|   company 2|
|21190745|       rohith|   company 2|
|21156311722|    sravan|   company 1|
|4115666122|      bobby|   company 3| 
|3116722672|    gnanesh|   company 1|
+--------+-------------+------------+

问题在于正在对最初推断为整数的“ID”列执行数字比较。 Python 中的整数有一个最大值，任何超过该最大值的数字都可能以这种方式被截断或解释错误。要解决这个问题，应该将“ID”列转换为字符串类型，以便 PySpark 正确处理大数。

试试下面的代码：

from pyspark.sql import SparkSession
from pyspark.sql.types import *

# 创建 sparksession 并指定应用程序名称 
spark = SparkSession.builder.appName('sparkdf').getOrCreate() 
data = [["2116722", "sravan", "company 1"], 
        ["2716722", "ojaswi", "company 2"], 
        ["2119722", "bobby", "company 3"], 
        ["21156311722", "sravan", "company 1"], 
        ["21422", "ojaswi", None], 
        ["2216722", "rohith", "company 2"], 
        ["3116722672", "gnanesh", "company 1"], 
        ["2156722", None, "company 2"], 
        ["4115666122", "bobby", "company 3"], 
        ["21190745", "rohith", "company 2"]] 

# 指定列名 
columns = ['ID', 'Employee NAME', 'Company Name'] 

# 从数据列表创建数据框 
dataframe = spark.createDataFrame(data, columns)

# 将“ID”列转换为字符串类型
dataframe = dataframe.withColumn("ID", dataframe["ID"].cast(StringType()))

dataframe.where(dataframe["ID"] > "100000").show()

在本代码中， dataframe.withColumn("ID", dataframe["ID"].cast(StringType())) 会将“ID”列转换为字符串类型。这确保了比较操作将按预期执行，并返回所有具有大于 100000 的 ID 的行。

此更改应能为提供预期的输出。

标签：python,dataframe,apache-spark,pyspark,apache-spark-sql
From： 78788103

JSON 响应中的字符串值变成 Python pandas datafram 中的数值
我正在使用Python从RESTAPI中提取数据并将其存储在SQL数据库中。除了响应中的一个JSON值之外，一切工作正常。JSON响应[{"pbxId":"XXXcxx","site":"XXXGroup-SydneyOffice","name":"XXXXService","extension":......
适用于 Python 的 Firebase-admin sdk 引发错误“StreamGenerator”不可迭代
以前（一周前）我与Firestore通信的Python代码工作得很好。但今天我又开始研究它，它在迭代collection.stream()service_account=credentials.Certificate('credential/serviceAccount.json')firebase_admin.initialize_app(service_account)firestore_d......
从 DOCKER 下的共享卷在 Linux 中执行 PyInstaller 生成的文件时出现 Python 子进程 F
我已经使用PyInstaller生成了一个可执行文件，例如test（没有扩展名，因为它是Linux）并将其存储在一个目录中，例如data我有一个Python程序，如下所示：importsubprocessfrompathlibimportPath...defrun_exe():try:#getcurrentdirectory......
从源代码安装 python3.5 后如何修复 virtualenv 的 python pip 分段错误（核心转储）响应
背景嗨，我的主要目标是为许多使用旧版本Python的项目创建一个virtualenv，这些项目与系统版本(3.10.x)是分开的。我是使用PopOS22.04并进行所有更新。由于此错误，我什至无法使用pip。我也阅读了周围的内容，但我读到的所有解决方案要么输出日志文件，要么......
无法使用适用于 Azure AI 搜索的 Python SDK 将数据添加到 ComplexField
我想将带有嵌套字典的有效负载上传到AzureAI搜索索引。我在索引中使用ComplexField作为负载中的嵌套字典。索引无法识别嵌套字典，并且出现空错误。这是我的代码：ComplexField,CorsOptions,SearchIndex,ScoringProfile,SearchFieldDataType,Sim......
使用 Pyspark 比较数据帧的架构
我有一个数据框（df）。为了显示其架构，我使用：frompyspark.sql.functionsimport*df1.printSchema()并且得到以下结果：#root#|--name:string(nullable=true)#|--age:long(nullable=true)有时架构会更改（列类型或名称）：df2.printSchema()#root......
如何使用 Python 从 Square 中的创建客户方法中检索客户 ID
我正在square创建一个客户并得到如下结果。我需要的是获取客户的id。我的代码：fromsquare.clientimportClientclient=Client(access_token=settings.SQUARE_ACCESS_TOKEN,environment=settings.SQUARE_ENVIRONMENT,)api_customers=client.customers......
为什么从.导入Python
我使用的存储库的结构如下：在myrepo/src/中有：主要.pycore.py和somepkgsomepkg有init.py和其他python文件。somepkg不是任何文件中的类或函数。在main.py中，我看到：from.importcorefrom.importsomepkg我的问题是from和.......
使用 Python 中的 Square API 检索客户 ID
我正在为Square开发一个客户创建表单，它将创建一个客户，然后立即检索他们的ID以在程序中进一步使用。但是，我不知道如何使用API来过滤使用list_customers命令返回的数据。我找到了这篇文章：HowtoretrievecustomeridfromcreatecustomermethodinSquareusing......
如何通过在字符串中使用 \u 或 \U 转义来正确表示 python3 (3.6.1+) 中的补充 unico
最近我正在学习python，在python3中遇到了unicode转义文字的问题。似乎像Java一样，\u转义被解释为Java使用的UTF-16代码点，但问题来了：例如，如果我尝试放置3个字节的utf-8字符，例如“♬”（https://unicode-table.com/en/266C/），甚至是补充unicode字符，例如“......

Pyspark 数据框不返回值超过 8 位的行

相关文章

赞助商

阅读排行