首页 > 其他分享 >数据预处理

数据预处理

时间:2023-11-28 14:01:25浏览次数:30  
标签:Q1 赛题 适用 数值 缺失 数据 预处理

缺失值

  • 比赛提供的数据,发现有些单元格是null或空的
  • 缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除
  • 最简单处理:均值众数插补
    • 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
    • 定性数据,例如关于一群人的性别、文化程度:某些事件调查的满意度,用出现次数最多的值补缺失
    • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
  • Newton插值法
    • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
    • 缺点:区间边缘处的不稳定震荡,即龙格现象不适合对导数有要求的题目
    • 适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
  • 样条插值法
    • 分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
    • 适用赛题: 零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据
  • 其他方法:分段插值Hermite插值

异常值

样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的

  • 正态分布3σ原则

    • 数值分布在 (u-3σ,u+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差

    • 求解步骤: 1.计算均值μ和标准差σ; 2.判断每个数据值是否在 (μ-3σ,μ+3σ)内,不在则为异常值

    • 适用题目: 总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等

    • 不适用题目: 总体符合其他分布,例如公交站人数排队论符合泊松分布

  • 画箱型图

    • 箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值上四分位数Q3是排第75%的数值

    • 四分位距IQR = Q - Q1,也就是排名第75%的减去第25%的数值

    • 与正态分布类似,设置个合理区间,在区间外的就是异常值

    • 一般设[Q1 -1.5 * IQR, Q3 + 1.5 * IQR]内为正常值

    • 适用题目:普遍适用

  • 异常数据处理方法与缺失值处理相同

标签:Q1,赛题,适用,数值,缺失,数据,预处理
From: https://www.cnblogs.com/Enid/p/17861809.html

相关文章

  • [信创]--达梦DM8数据库-docker方式部署
    下载:https://www.dameng.com/list_103.html下载镜像,上传到指定服务器:载入镜像:查看镜像: 启动容器:dockerrun-d-p5237:5236--restart=always--namedm8--privileged=true-eCASE_SENSITIVE=0\-ePAGE_SIZE=32-eEXTENT_SIZE=32-eUNICODE_FLAG=1-eLENGTH_IN......
  • pytest参数化数据来源于excel文件时,如果读取参数化数据?
    一、问题pytest参数化数据来源于excel文件时,如果读取参数化数据? 二、回答有两种获取方式:1.列表嵌套列表的方式2.列表嵌套字典的方式更加推荐第2种列表推荐字典的方式,这样就算excel增加一列也没关系,不用大动代码,而列表嵌套列表的方式,一旦excel增加或减少一列,pytest.mark.para......
  • 上海数交所与合合信息发布产业数据行业创新中心,政产学研合力为“数据航母”加速
    上海数交所与合合信息发布产业数据行业创新中心,政产学研合力为“数据航母”加速大数据产业是数字经济创新发展、加速发展的重要方向。11月25日,2023全球数商大会在上海盛大开幕。大会以“数联全球、商通未来”为主题,聚焦数字经济时代下,数据要素推动实体经济发展的规划与成果,是数......
  • 聊聊分布式 SQL 数据库Doris(七)
    LSM-TreeDoris的存储结构是类似LSM-Tree设计的,因此很多方面都是通用的,先阅读了解LSM相关的知识,再看Doris的底层存储与读取流程会清晰透彻很多,如下是几个关键的设计:SSTable:SortedStringsTable;一般由一组数据block和一组元数据block组成,数据是已序的。元数据会存储数据bloc......
  • pytest参数化数据来源于csv文件时,如果读取参数化数据?
    一、问题pytest参数化如何读取csv文件数据? 二、回答有两种获取方式:1.列表嵌套列表的方式2.列表嵌套字典的方式更加推荐第2种列表推荐字典的方式,更好用。data\id.csv数据为:代码如下所示:1importcsv2importos34importopenpyxl567defg......
  • 查数据技巧
    ​ 查数据平台:优先在知网、谷歌学术等平台搜索国家统计局最全面,月度季度年度,各地区各部门各行业,包罗万象https://data.stats.gov.cn/其他国家部门网站大多都有数据分页,如果需要可另行查找awesome-public-datasetsGitHub上的一个项目,包舍了经济、地理、能源、教育等所......
  • 加固数据安全:Java助力保护Excel文件,让数据无懈可击
    前言Excel文件保护是常用的一种功能,文件保护主要有三种:添加密码,如果没有密码不允许打开文件。添加密码,如果没有密码,不能修改文件,但可以打开,只读以及另存文件。只读推荐,通常推荐打开Excel文件的用户使用只读模式打开,这种方式仅是一种提示,并非强行保护文件。给Excel添加保护情况1:下面......
  • [数据治理] 数据时政 # 首任【国家数据局】局长【刘烈宏】首论:【数据基础设施】
    推动数据基础设施建设,为我国数据事业发展贡献力量。2023.11.23/刘烈宏/杭州|国家数据局|数据要素治理与市场化论坛|第2届全球数字贸易博览会一个要素:国家数据局的挂牌成立与时代背景——数据作为新的关键生产要素随着国家数据局的挂牌成立,中国数据事业正在迎来崭......
  • 客户端相关知识学习(十)之app给h5传递数据
      方法一:app可以把参数传到h5的链接里,用类似?xx=xx&xx=xx的形式拼接,js解析参数即可。方法二:情况一:app调用h5原生app都可以对js的function进行触发,前端要做的只是将js定义好方法名和参数,交给app人员即可,app将数据通过参数传入情况二:h5调用app当H5页面加载时,就可以通过j......
  • 客户端相关知识学习(九)之h5给app传递数据
      方法一:情况一:if (window.JdAndroid){     window.JdAndroid.setPayCompleted();     window.JdAndroid.setPageIndex("cashierDesk_finish");}调用方式:h5调用Android方法传递数据:通过参数传递给Android情况二:var viewA......