首页 > 其他分享 >数据清洗二

数据清洗二

时间:2024-03-10 13:44:25浏览次数:20  
标签:sta df 标准差 清洗 价格 数据 concat 节省

对于有价格和节省价格之类的数据进行处理

#异常值的处理                                                                                              
                                                                                                     
#博主给的数据是有关金额的所以异常值是比较大或者比较小的金额                                                                       
#找出节省的异常值                                                                                            
                                                                                                     
# df.describe().T 找出最大值和最小值                                                                          
                                                                                                     
##通常来说对于建模会删掉异常值,但是对于业务来说异常值会有商业价值                                                                   
                                                                                                     
#三倍标准差来衡量mean表示均值   std表示标准差                                                                         
#sta的结果是有正有负的数据                                                                                      
  #sta=(df['价格']-df['价格'].mean()/df['价格']).std()                                                     
        #价格减去平均值  再除以标准差                                                                             
       # 如果结果大于三表示大于了三倍标准差                                                                           
       #df[sta.abs()>3] abs 表示取绝对值                                                                   
                                                                                                     
       #sta[:10]表示只看前十个标准差                                                                           
                                                                                                     
                                                                                                     
                                                                                                     
     #  df[df.节省>df.价格]   将节省大于价格的数据提取出来                                                             
#deindex= pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index                                         
#采用pd.concat函数将价格和节省的异常值组合起来注意concat中的两个数据必须要用中括号括起来   后面的index表示这concat提取出来的数据的索引                   
                                                                                                     
#然后采用df.drop(delindex, inplace=True) 强制在原数据上更改                                                       
                                                                                                     
                                                                                                     

 

标签:sta,df,标准差,清洗,价格,数据,concat,节省
From: https://www.cnblogs.com/222wan/p/18064081

相关文章

  • Redis 常见数据类型(对象类型)和应用案列
    前言:每次你在游戏中看到玩家排行榜,或者在音乐应用中浏览热门歌单,有没有想过这个排行榜是如何做到实时更新的?当然,依靠Redis即可做到。在技术领域,我们经常听到「键值存储」这个词。但在Redis的世界里,这只是冰山一角。Redis的对象,不仅仅是简单的数据,它们是为各种任务量身定......
  • 6大数据类型相互转换
    定义:Python中的不同数据类型是不能进行转换的,所以我们需要数据类型转换,一共分为两种类型转换自动类型转换强制类型转换在Python中:容器类型数据:字符串,列表,元组,字典,集合非容器类型数据:数字类型,布尔类型自动类型转换定义:当两个不同类型的数据进行转换时,结果会进行计算a......
  • llm构建数据标注助手
    为什么要用LLM构建数据标注工具在LLM出现之前,传统的深度学习模型(包括CV和NLP)就已经需要大量的数据进行训练和微调。没有足够的数据,或者数据需要进行二次加工(比如标签标注),这些问题都成为限制深度学习模型泛化的关键。对于第一个问题,一般就是从网络上爬虫或者花大价钱从数据供应商......
  • rpmdb 常用命令初始化与重建rpm数据库
    在Linux系统中,rpmdb命令用于初始化和重建rpm数据库。这里有一些常用的rpmdb方法:初始化RPM数据库:rpmdb--initdb这个命令会创建一个新的RPM数据库,如果数据库已经存在,它不会做任何事情。重建RPM数据库:rpmdb--rebuilddb如果RPM数据库损坏或者需要更新,这个命令会从已安......
  • 2024 年春节集训 _ 第二课 - 数据结构优化动态规划
    【例题\(1\)】递增子序列\(\color{white}{link}\)考虑\(dp.\)\(dp[i][j]\)表示以元素\(i\)为结尾,长度为\(k\)的方案数。那么显而易见就有一个转移方程:\[dp[i][j]=\sum_{a[k]<a[i],\k<i}dp[k][j-1]\]先抛去第二维度的\(j\),这是可以做一个关于\(a[i]\)值的大......
  • datax从mysql迁移数据到OceanBase
    datax部署下载dataxdatax下载地址安装dataxtar-zxvfdatax.tar.gz使用datax使用配置文件{"job":{"setting":{"speed":{"channel":4},"errorLimit":{......
  • 数据库常用SQL语句
    一、DDL-数据库操作1.查询数据库#查询所有数据库SHOWDATABASES;#查询当前数据库SELECTDATABASE();2.创建数据库CREATEDATABASE[IFNOTEXISTS]数据库名[DEFAULTCHARSET字符集][COLLATE排序规则];3.删除数据库DROPDATABASE[IFEXISTS]数据库名;4.使......
  • 数据库中的索引
    目录1、概述MySQL索引是一种提高查询效率的重要手段,它能够快速定位需要的数据,从而减少查询的开销。MySQL支持多种索引类型,每种类型都有其特点和适用场景。本文将介绍MySQL常见的索引类型及其特点。2、索引种类MySQL常见的索引种类有普通索引、唯一索引、全文索引、单列索引、......
  • 安卓开发学习-向上一个Activity返回数据
    发送请求页面点击查看代码packagecom.android.response;importandroid.content.Intent;importandroid.os.Bundle;importandroid.widget.Button;importandroid.widget.TextView;importandroidx.activity.result.ActivityResultLauncher;importandroidx.activity.......
  • 使用AT+MQTT指令连接华为云实现数据上传
    1准备工作硬件设备模块:ESP-01-S固件烧录工具:ESP8266下载器串口调试工具:VOFA+参考文章:stm32+AT指令+ESP8266接入华为云物联网平台并完成属性上报与下发的命令处理2固件更新2.1为什么要重新安装固件由于ESP-01-S模块出厂没有集成MQTT指令,故需要自己下载固件包,详见官网固......