数据清洗,清洗“RHU”列为999999的数据
#!/usr/bin/python3 # -*- coding: utf-8 -*- """ @Time : 2025/1/20 22:50 @Author : Suyue @Email : 1493117872@qq.com @File : cloud_area.py @Project : untitled4 """ import pandas as pd import numpy as np # 读取CSV文件到DataFrame df = pd.read_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon.csv') df = pd.DataFrame(df) # 清洗“RHU”列中值为999999的数据,将其设置为NaN df.loc[df['RHU'] == 999999, 'RHU'] = np.float('nan') # # 查看清洗后的数据 # print("\n清洗后的数据:") # print(df) # 将清洗后的数据保存到一个新的CSV文件中 df.to_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon_cleaned_data.csv', index=False)
解释
- 读取数据:使用
pd.read_csv
函数读取CSV文件到一个Pandas DataFrame中。 - 查看数据:使用
df.head()
函数查看数据的前几行,以确认数据的格式和需要清洗的列。 - 清洗数据:
- 使用
df.loc
函数选择“RHU”列中值为999999的行,并将这些值替换为pd.NA
(Pandas中的缺失值表示)。你也可以选择替换为其他特定的值,比如-1。
- 使用
- 再次查看数据:再次使用
df.head()
函数查看数据的前几行,以确认清洗结果。 - 保存数据:如果需要,使用
df.to_csv
函数将清洗后的数据保存回CSV文件。