首页 > 其他分享 >数据清洗

数据清洗

时间:2024-03-09 20:56:05浏览次数:19  
标签:处理 df 清洗 描述 数据 缺失 重复

 

 

 

确定数据分析的目的,获取数据,清洗数据,探索数据,建模分析,结果交流

本篇主要采用python进行处理数据的方法进行描述

数据处理顺序:数据读写  , 数据探索与描述, 数据简单处理, 重复值的处理,缺失值的处理,异常值的处理,文本字符串的处理,

数据读写:

pd.read_csv('文件路径')
pd.read_excel('文件路径')

  

数据的探索欲描述:(使用pandas读入进来的数据全部都是datefreim的格式数据简写为df)

df.info()
df.describe()
#简单的统计描述

  数据的简单处理:

去除数据间的空格,英文字母的大小写转换

重复值的处理:

duplicate()
#重复值寻找函数
drop_duplicates()

#删除重复值

  缺失值处理:

删除缺失值、均值填补,向前填充、模型填补(如随机森林法)

 

异常值处理:删除异常值的记录

作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值

 

文本字符串处理:去除前后空格

去除中间有逗号或括号的数据,采用replace(',','')

正则表达式提取所需要数据

时间格式序列的处理:将系统时间格式化、系统时间和时间戳相互转化,年月日提取

 

标签:处理,df,清洗,描述,数据,缺失,重复
From: https://www.cnblogs.com/222wan/p/18063226

相关文章

  • SHA算法:数据完整性的守护者
    一、SHA算法的起源与演进SHA(SecureHashAlgorithm)算法是一种哈希算法,最初由美国国家安全局(NSA)设计并由国家标准技术研究所(NIST)发布。SHA算法的目的是生成数据的哈希值,用于验证数据的完整性和真实性。最早的SHA-0版本于1993年发布,之后陆续发布了SHA-1、SHA-2和SHA-3等不同版本,不......
  • 安卓开发学习-Intent携带数据
    发送数据页面点击查看代码packagecom.android.messaging;importandroid.annotation.SuppressLint;importandroid.content.Intent;importandroid.os.Bundle;importandroid.widget.Button;importandroid.widget.TextView;importandroidx.appcompat.app.AppCompatA......
  • offline RL | D4RL:最常用的 offline 数据集之一
    pdf:https://arxiv.org/pdf/2004.07219.pdfhtml:https://ar5iv.labs.arxiv.org/html/2004.07219GitHub:https://github.com/Farama-Foundation/D4RL项目网站:https://sites.google.com/view/d4rl-anonymous/openreview:https://openreview.net/forum?id=px0-N3_KjA(被strong......
  • dataset 判断整列是否有重复,找出重复数据
    DataTabledt=ds.Tables[0];DataViewdv=newDataView(dt);if(dv.Count!=dv.ToTable(true,jsonColumnNameNo).Rows.Count){......
  • 淘宝订单AP I淘宝订单数据接口 获取商品订单列表 获取商品订单详情
    淘宝订单API是淘宝开放平台提供的一组接口,允许开发者获取淘宝或天猫的订单数据,包括订单列表和订单详情。要使用这些API,你需要遵循一定的步骤来获取并接入这些接口。以下是获取淘宝订单数据的基本步骤:注册并创建应用首先,你需要在淘宝开放平台注册账号,并创建一个应用。创建应用......
  • 探索数据结构:单链表的实战指南
    ✨✨欢迎大家来到贝蒂大讲堂✨✨......
  • 【C#】示波器大数据量取点采样及绘图(波形回放)
    一、示波器不同取样方式的选择 示波器不同取样方式的选择-知乎(zhihu.com)测量仪器中的各种波形抽取方式(antpedia.com)示波器的抽取(Decimation)模式-电子工程世界(eeworld.com.cn)一般用等间隔采样比较还原波形。 二、控件选择1、Dev的ChartControl点数多、曲线多......
  • 淘宝天猫获得商品详情 API 如何做到实时数据获取?
    淘宝天猫的商品详情API实现实时数据获取主要依赖于以下几个关键方面:API设计与更新频率:淘宝天猫的API接口会定期进行数据更新,确保返回的商品详情是最新的。这通常依赖于平台的后端系统,它们会实时监控商品数据的变化并实时更新到API中。开发者在调用API时,可以获取到最新的商品详......
  • MYSQL学习笔记12: DCL数据控制语言(用户操作)
    DCL数据控制语言查询用户#用户信息保存在数据库mysql的user表中usemysql;select*fromuser;创建用户createuser'用户名'@'主机名'identifiedby'密码';在主机localhost创建一个新用户createuser'hikari39'@'localhost'identifiedby'123456......
  • 【vue3】学习对store中数据的使用
    src/store/modules/nav.jsimport{defineStore}from'pinia';import{handleTree}from'@/utils/ruoyi'import{list}from"@/api/nav/node";conststore=defineStore( 'nav', { state:()=>({ nodeList:[]......