首页 > 其他分享 >27.数据清洗-缺失值和重复值处理

27.数据清洗-缺失值和重复值处理

时间:2022-11-19 15:13:13浏览次数:50  
标签:27 df 空值 课程 pd print 清洗 True 缺失

 

#查看空值情况
import pandas as pd
pd.set_option("display.unicode.east_asian.width",True)
df=pd.read_excel('msb课程记录.xls')
print(df)
print('---------------------------------------------------')
print(df.info())  #查看是否有缺失值
print('---------------------------------------------------')
print(df.isnull())#结果为Ture 或者 False,不为NaN时,为false
print(df.notnull()) #结果为Ture 或者 False,不为NaN时,为True

# #删除有空值的行(全部列有空值的行)

  #删除有空值的行(全部列有空值的行)
import pandas as pd
pd.set_option("display.unicode.east_asian.width",True)
df=pd.read_excel('msb课程记录.xls')
print(df)
print('---------------------------------------------------')
df=df.dropna()      #删除有空值的行
print(df)

##提取某列不是空的数据

#提取某列不是空的数据
import pandas as pd
pd.set_option("display.unicode.east_asian.width",True)
df=pd.read_excel('msb课程记录.xls')
print(df)
print('---------------------------------------------------')
df=df[df['课程总数量'].notnull()]
print(df)  #提取课程数量中不为NaN

##某列空值填充为某数    fillna()

 

#某列空值填充为某数
import pandas as pd
pd.set_option("display.unicode.east_asian.width",True)
df=pd.read_excel('msb课程记录.xls')
print(df)
print('---------------------------------------------------')
df['课程总数量']=df['课程总数量'].fillna(0)  #填充空值 fillna(要填充成什么数)
print(df)

 ##重复值的处理

#重复值的处理
import pandas as pd
pd.set_option("display.unicode.east_asian.width",True)
df=pd.read_excel('msb课程记录.xls')
print(df)
print('---------------------------------------------------')
#是否具有重复值
print(df.duplicated())  #有ture  有重复值

#去除全部的重复值
#df=df.drop_duplicates()   #每个列的数据相同的删除
#print(df)
#去除全部的重复值,保留重复行中的最后一行
df=df.drop_duplicates('买家实际支付金额',keep='last')  #keep='last' 表示 保留重复行中的最后一行
print(df)
#直接删除,保留一个副本
df1=df.drop_duplicates('买家实际支付金额',inplace=False)  #inplace=False  直接删除,保留一个副本
print(df)
print(df1)

 

 

标签:27,df,空值,课程,pd,print,清洗,True,缺失
From: https://www.cnblogs.com/988MQ/p/16906145.html

相关文章