数据清洗

数据清洗

时间：2024-03-09 20:56:05浏览次数：19

确定数据分析的目的，获取数据，清洗数据，探索数据，建模分析，结果交流

本篇主要采用python进行处理数据的方法进行描述

数据处理顺序：数据读写，数据探索与描述，数据简单处理，重复值的处理，缺失值的处理，异常值的处理，文本字符串的处理，

数据读写：

pd.read_csv('文件路径')
pd.read_excel('文件路径')

数据的探索欲描述：（使用pandas读入进来的数据全部都是datefreim的格式数据简写为df）

df.info()
df.describe()
#简单的统计描述

　　数据的简单处理：

去除数据间的空格，英文字母的大小写转换

重复值的处理：

duplicate()
#重复值寻找函数
drop_duplicates()

#删除重复值

　　缺失值处理：

删除缺失值、均值填补，向前填充、模型填补（如随机森林法）

异常值处理：删除异常值的记录

作为缺失值处理、平均值修正缺失值、不处理但作为业务分析挖掘价值

文本字符串处理：去除前后空格

去除中间有逗号或括号的数据，采用replace（',',''）

正则表达式提取所需要数据

时间格式序列的处理：将系统时间格式化、系统时间和时间戳相互转化，年月日提取

标签：处理,df,清洗,描述,数据,缺失,重复
From： https://www.cnblogs.com/222wan/p/18063226

SHA算法：数据完整性的守护者
一、SHA算法的起源与演进SHA（SecureHashAlgorithm）算法是一种哈希算法，最初由美国国家安全局（NSA）设计并由国家标准技术研究所（NIST）发布。SHA算法的目的是生成数据的哈希值，用于验证数据的完整性和真实性。最早的SHA-0版本于1993年发布，之后陆续发布了SHA-1、SHA-2和SHA-3等不同版本，不......
安卓开发学习-Intent携带数据
发送数据页面点击查看代码packagecom.android.messaging;importandroid.annotation.SuppressLint;importandroid.content.Intent;importandroid.os.Bundle;importandroid.widget.Button;importandroid.widget.TextView;importandroidx.appcompat.app.AppCompatA......
offline RL | D4RL：最常用的 offline 数据集之一
pdf：https://arxiv.org/pdf/2004.07219.pdfhtml：https://ar5iv.labs.arxiv.org/html/2004.07219GitHub：https://github.com/Farama-Foundation/D4RL项目网站：https://sites.google.com/view/d4rl-anonymous/openreview：https://openreview.net/forum?id=px0-N3_KjA（被strong......
dataset 判断整列是否有重复，找出重复数据
DataTabledt=ds.Tables[0];DataViewdv=newDataView(dt);if(dv.Count!=dv.ToTable(true,jsonColumnNameNo).Rows.Count){......
淘宝订单AP I淘宝订单数据接口获取商品订单列表获取商品订单详情
淘宝订单API是淘宝开放平台提供的一组接口，允许开发者获取淘宝或天猫的订单数据，包括订单列表和订单详情。要使用这些API，你需要遵循一定的步骤来获取并接入这些接口。以下是获取淘宝订单数据的基本步骤：注册并创建应用首先，你需要在淘宝开放平台注册账号，并创建一个应用。创建应用......
探索数据结构：单链表的实战指南
✨✨欢迎大家来到贝蒂大讲堂✨✨......
【C#】示波器大数据量取点采样及绘图（波形回放）
一、示波器不同取样方式的选择示波器不同取样方式的选择-知乎(zhihu.com)测量仪器中的各种波形抽取方式(antpedia.com)示波器的抽取（Decimation）模式-电子工程世界(eeworld.com.cn)一般用等间隔采样比较还原波形。二、控件选择1、Dev的ChartControl点数多、曲线多......
淘宝天猫获得商品详情 API 如何做到实时数据获取？
淘宝天猫的商品详情API实现实时数据获取主要依赖于以下几个关键方面：API设计与更新频率：淘宝天猫的API接口会定期进行数据更新，确保返回的商品详情是最新的。这通常依赖于平台的后端系统，它们会实时监控商品数据的变化并实时更新到API中。开发者在调用API时，可以获取到最新的商品详......
MYSQL学习笔记12: DCL数据控制语言(用户操作)
DCL数据控制语言查询用户#用户信息保存在数据库mysql的user表中usemysql;select*fromuser;创建用户createuser'用户名'@'主机名'identifiedby'密码';在主机localhost创建一个新用户createuser'hikari39'@'localhost'identifiedby'123456......
【vue3】学习对store中数据的使用
src/store/modules/nav.jsimport{defineStore}from'pinia';import{handleTree}from'@/utils/ruoyi'import{list}from"@/api/nav/node";conststore=defineStore( 'nav', { state:()=>({ nodeList:[]......

相关文章

赞助商

阅读排行