pandas 缺失值、异常值提取和处理

时间：2024-02-17 22:55:07浏览次数：30

标签：提取填充 df shift 缺失 method fillna pandas

for columname in df.columns: #遍历每一列 
    if df[columname].count()  != len(df): #判断缺失行条件：所在列的值数等于总数据的长度
        #将存在缺失值的行的索引转换成列表储存
        loc = df[columname][df[columname].isnull().values == True].index.tolist()
        print('列名："{}",第{}行位置有缺失值'.format(columname, loc))

遍历每列 -> 列长是否小于总长 ->缺失值所在行： df['列名'][df['列名‘].isnull().values==True ]

1. 缺失值处理

dropna()删除缺失值

df.dropna(axis=0) # 删除包含缺失值的行
df.dropna(axis=1) # 删除包含缺失值的列

使用 fillna() 方法填充缺失值，可以使用指定的值、前一个有效值、后一个有效值或者均值、中位数等。

df.fillna(value=0)  # 用指定值填充缺失值
df.fillna(method='ffill')  # 使用前一个有效值填充缺失值
df.fillna(method='bfill')  # 使用后一个有效值填充缺失值
df.fillna(df.mean())  # 使用均值填充缺失值
df.fillna((df.shift()+df.shift(-1))/2) #用前后数值的平均值填充
# 使用前一个数据和后一个数据的平均值填充缺失值，边界情况下使用同侧的值
df = df.fillna((df.shift().fillna(method='bfill') + df.shift(-1).fillna(method='ffill')) / 2)

最后一行的边界情况指的是第一行、最后一行等情况

2. 不合规数据

df[df['ColumnName']=='不合规数据']

df[df['ColumnName'].str.contains(' ')]

包含’--‘为不合规数据提取：

# 方法一：isin()
df[df['column'].isin(['--'])]

# 方法二：contains()
df[df["column"].str.contains("--")]

数据类型不为str提取：

temp = pd.DataFrame()
for i in range(len(df)):
    if type(df['ColumnName'][i]) != str: #df['xxx'][i]或写成df.iloc[i,j]
        temp = temp.append(df.loc[i])

不合规数据的处理：讲数据替换成nan，再用缺失值处理的方法

# 将不符合规范的值替换为 NaN
df = df.replace(['--', '111'], np.nan)

# 使用前一个数据和后一个数据的平均值填充缺失值，边界情况下使用同侧的值
df = df.fillna((df.shift().fillna(method='bfill') + df.shift(-1).fillna(method='ffill')) / 2)

标签：提取,填充,df,shift,缺失,method,fillna,pandas
From： https://www.cnblogs.com/ricenoodle/p/18018554

使用MICE进行缺失值的填充处理
在我们进行机器学习时，处理缺失数据是非常重要的，因为缺失数据可能会导致分析结果不准确，严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤，有助于确保分析结果的可信度和可解释性。在本文中，我们讲重点介绍MICE。MICE（MultipleImputationbyChainedEq......
借助Rich库实现Pandas DataFrame颜值升级
pandas的DataFrame功能强大自不必说，它可以帮助我们极大的提高统计分析的效率。不过，使用DataFrame开发我们的分析程序的时候，经常需要打印出DataFrame的内容，以验证和调试数据的处理是否正确。在命令行中虽然可以直接打印出DataFrame的内容，但是阅读比较困难。正好前段时间了解到pyt......
pandas.DataFrame.drop()函数
在Pandas库中，DataFrame.drop()用于移除DataFrame中的行或列。df.drop(labels=None,axis=0,index=None,columns=None,level=None,inplace=False,errors='raise')参数:1.labels:要删除的列或者行，如果要删除多个，传入列表2.axis:轴的方向，0为行，1为列，默认为03.......
提取数据（实验室检查）
/***实验室检查*/publicclassBeginPathology{publicstaticvoidmain(String[]args)throwsException{try{StringfolderPath="C:\\Users\\kfeng5\\OneDrive-DXCProduction\\Desktop\\年假工作";Filefolder......
【机器学习】数据清洗之处理缺失点
......
【机器学习】数据清洗之识别缺失点
......
03-数据提取
本节概要：如何提取嵌入在HTML格式中的文本信息。很多网站请求后，返回的数据是嵌套在HTML格式中的。例如：5xclass.cn对于这种情况想要提取其中的数据，常见有两种方法：基于bs4模块（本节重点）基于xpath模块1.HTML格式<div><h1class="item">武沛齐</h1><ulclass="item">......
（）氏提取器
还愿。远古时期填的一个歌（取badapple曲）去描述更远古的一个广为人知的事。大概的曲谱：写的抽象的词：1七月盛夏中，草木凋零，ix讳会锁伟大之降落，寒光震慑hn中沼泽。撮盐入火般，崭露锋芒，秋来春去鼎盛突逢祸，竟遭贬谪西藏。会锁锁苍穹，东方水神慑众峰，卧水尝雪御西藏，坐断西南塞四方。......
提取数据
packageorg.pdffolder.pdffolder01;importorg.apache.pdfbox.pdmodel.PDDocument;importorg.apache.pdfbox.text.PDFTextStripper;importorg.apache.tika.utils.StringUtils;importjava.io.File;importjava.util.regex.Matcher;importjava.util.regex.Pattern;......
linux 中如何提取一列中纯数字或者纯字母的行
001、纯数字[root@PC1test1]#lsa.txt[root@PC1test1]#cata.txt##测试文本sdf3247fy323td34342fff435tih6334s234dfg65[root@PC1test1]#grep"^[0-9]\+$"a.txt##提取纯数字的行3424356334 002、纯字母[root@PC1t......

pandas 缺失值、异常值提取和处理

相关文章

赞助商

阅读排行