Python数据预处理

时间：2023-06-26 23:56:25浏览次数：25

标签：填充 Python 数据 df csv data 预处理 axis

1 数据的生成与导入

这里主要使用的pandas

import pandas as pd
#加载excel数据
df_excel=pd.read_excel('')
df_excel.head()
#加载text数据
df_text=pd.read_table('')
df_text.head()
#加载csv数据
df_csv=pd.read_csv('')
df_csv.head()

2 读取多个数据并合并

import glob
glob.glob(path)
返回所有符合path条件的文件的路径。

import glob
#设置文件路径
path='/user/..../data2'
#合并多个数组
all_files=glob.glob(path+'/*.csv')
all_data=[]
for filename in all_files:
	df=pd.read_csv(filename,index_col=None,header=0)
	all_data.append(df)
data2=pd.concat(all_data,axis=0,ignore_index=True)

文件

3 数据的信息查看

#查看数据规模（维度）
data.shape
#查看各变量的数据类型
data.dtypes
#查看数据的整体信息
data.info()
#查看数据的描述
data.decribe()
#查看数据的列名
data.columns
#查看Origin唯一值
data['Origin'].unique()
#查看数据表值
data['Origin'].values
#查看前5行
data.head()
#查看后5行
data.tail()

4 数据清洗与预处理

4.1 查找空值

这个的axis=0就是按照列为标准（一列一列看）
axis=1就是按照行为标准（一行一行看）

#查看空值，判断各变量中是否存在缺失值
data.isnull().any(axis=0)
#判断数据行中是否存在缺失值
data.isnull().any(axis=1)

#定位缺失值所在的行
data.loc[data.isnull().any(axis=1)]
#统计各变量中的缺失值的数量
data.isnull().sum(axis=0)

4.2 处理空值

#直接删除空值所在行
data3=data.dropna()
data3

DataFrame.fillna(value=, method=, axis=, inplace=False, limit=, downcast=)
value：用于填充缺失值的值，可以是标量、字典、Series 或 DataFrame。
method：填充缺失值的方法，可选值包括 backfill（向前填充）、bfill（向后填充）、pad（用前面的非缺失数据填充）、ffill（用后面的非缺失数据填充）等。
axis：指定在哪个轴上执行填充操作。
inplace：是否在原 DataFrame 上直接进行修改,True就是把原来的DataFram修改，False反之。
limit：对于前向填充和后向填充，限制填充缺失值的最大数量。
downcast：指定填充后的数据类型，可选值包括infer（自动推断）、integer（整型）等。

#定义缺失值为0
data_null_0=data.fillna(0,inplace=False)
data_null_0

#对缺失值进行填充（用中位数或者平均数
data_null_value=data.fillna(value={'Horsepower':data['Horsepower'].mode()[0],
'Miles_per_Gallon':data['Miles_per_Gallon'].mean()},inplace=False)

data_null_value

上面是因为fillna支持字典的形式

验证：

4.3 处理重复数据

data_du=pd.read_csv('....csv')
data_du

这里一共有417rows*9columns

#判断数据中是否有重复值
data_du.dupilcated().any()

#删除重复值，会删除除第一条后的，默认对所有变量判断
data_du.drop_duplicates()

这里我们看见变成了406*9

#指定变量判断
data_du.drop_duplicates(subset=['Horsepower','Miles_per_Gallon'],keep='First',inplace=False)
#first保留第一个，inplace=True对原数据进行修改

4.4 数据的提取和筛选

#增加索引
data['index']=data.index
data.head()

标签：填充,Python,数据,df,csv,data,预处理,axis
From： https://www.cnblogs.com/lipu123/p/17507349.html

python发展史及python应用场景
python发展史 Python的发展可以分为以下几个阶段：Python1.x(1994-2000)：这个阶段是Python发展的初期，主要特点是语言简单易学，它可以很好地操作文本和文件，并且具有很好的扩展性，允许在Python中嵌入其他语言的代码。Python2.x(2000-2010)：这个阶段是Python发展的中......
Python全栈学习 day07 数据类型（三）
day06数据类型（下）常见的数据类型：int，整数类型（整形）bool，布尔类型str，字符串类型list，列表类型tuple，元组类型dict，字典类型set，集合类型float，浮点类型（浮点型）目标：掌握字典、集合、浮点类型相关知识。课程概要：set集合，一个不允许重复重复&可变类型（元素可哈希）。dict字典，一个......
Python全栈学习 day08 基础知识补充与总结
day08总结和考试课程目标：对第一模块“Python基础”阶段的知识点进行总结和考试，让学员更好的掌握此模块的相关知识。课程概要：代码规范知识补充阶段总结（思维导图）考试题1.代码规范程序员写代码是有规范的，不只是实现功能而已。1.1名称在Python开发过程中会创建文件夹......
Python全栈学习 day04 进制和编码
day04进制和编码课程目标：讲解计算机中一些必备的常识知识，让学员了解一些常见名词背后的含义（重在理解）。课程概要：python代码的运行方式进制计算机中的单位编码1.Python代码运行方式脚本式python3~/PycharmProjects/day03/6.作业题讲解.py交互式python32.进......
Python全栈学习 day2 快速上手基础语法知识
day02快速上手课程目标：学习Python最基础的语法知识，可以用代码快速实现一些简单的功能。课程概要：初识编码（密码本）编程初体验输出初识数据类型变量注释输入条件语句1.编码（密码本）计算机中所有的数据本质上都是以0和1的组合来存储。在计算机中会将中文内存转换成0101......
R语言用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据|附代码数据
使用lasso或非凸惩罚拟合线性回归，GLM和Cox回归模型的正则化，特别是_最小_最_大凹_度_惩罚_函数_(MCP)_和光滑切片绝对偏差惩罚（SCAD），以及其他L2惩罚的选项（“弹性网络”）还提供了用于执行交叉验证以及拟合后可视化，摘要，推断和预测的实用程序。我们研究前列腺数据，它具有8个变量和一......
R语言文本挖掘NASA数据网络分析，tf-idf和主题建模|附代码数据
们被客户要求撰写关于文本挖掘的研究报告，包括一些图形和统计输出。NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系1 NASA如何组织数据首先，让我们下载JSON文件，......
matlab中使用VMD(变分模态分解)对信号去噪|附代码数据
原文链接：http://tecdat.cn/?p=12486最近我们被客户要求撰写关于VMD的研究报告，包括一些图形和统计输出。创建一个以4kHz采样的信号，类似于拨打数字电话的所有键拨号音信号的变模分解将信号另存为MATLAB®时间数据。 fs = 4e3;t = 0:1/fs:0.5-1/fs;绘制时间表的变分模......
SAP BTP 平台 ABAP 编程环境如何维护自定义 Unit Of Measure 数据库表 T006
在ABAPOn-Premises系统下，我们可以轻易在SAPGUI里对UnitofMeasure数据库表即T006进行维护：[图片]ABAP数据库表T006是SAP系统中的一个重要数据表，它用于存储与度量单位相关的信息。在SAP系统中，度量单位用于表示各种物料、服务和计量单位。这些信息对于物料管理、......
Python基于SVM和RankGauss的低消费指数构建模型
全文链接：https://tecdat.cn/?p=32968原文出处：拓端数据部落公众号分析师：WenyiShen校园的温情关怀是智慧校园的一项重要内容。通过大数据与数据挖掘技术对学生日常校园内的消费信息进行快速筛选和比对，建立大数据模型，对校园内需要帮助的同学进行精准识别，为高校温情关怀提供有效的......