Python数据分析，办公自动化，数据选取

时间：2022-10-14 16:07:58浏览次数：59

标签：数据分析办公自动化索引 Python 成交量 df iloc 数据 ID

一张表中通常会包含很多字段，造成数据冗余，在做数据分析时，我们仅需要提取数据分析所需要的字段，这里就需要用到数据选取的知识点。

本文构建数据表做数据索引，然后对数据内容进行调整，包含修改数据类型、去除空格、数据替换、截取字符等，最后做数据规整。

一、构建数据表

首先导入常用的库，设置一些数据字段，构建一张数据表。

importimportimport
df = pd.DataFrame({'用户ID':[1001,1002,1003,1004,1005,1006],'日期':pd.date_range(datetime.datetime(2021,3,23),periods=6),'城市':['北京', '上海', '广州', '上海', '杭州', '北京'],'年龄':[23,44,54,32,34,32],'性别':['F','M','M','F','F','F'],'成交量':[3200,1356,2133,6733,2980,3452]},columns =['用户ID','日期','城市','年龄','性别','成交量'])df

Python数据分析，办公自动化，数据选取_数据类型

二、数据索引

1、索引修改

#修改索引，直接赋值给Index即可df.index=list('abcdef')df

Python数据分析，办公自动化，数据选取_数据类型_02

2、数据索引

索引某行，有三种方法，一种是loc按照名字索引，另一种是iloc按照下标索引，Ix是loc和iloc的混合，既能按索引标签提取，也能按位置进行数据提取。

#索引两列df.loc[:,['城市','成交量']]

Python数据分析，办公自动化，数据选取_数据类型_03

#索引前两行，两列df.loc[['a','b'],['城市','成交量']]

Python数据分析，办公自动化，数据选取_字段_04

#获取第一列、第二列数据df.iloc[:,0:2]

Python数据分析，办公自动化，数据选取_字段_05

Python数据分析，办公自动化，数据选取_数据类型_06

# 仅取出第1行的数据df.iloc[0]

Python数据分析，办公自动化，数据选取_字段_07

#索引全部行数据df.iloc[:,[0, 1, 2]]

Python数据分析，办公自动化，数据选取_数据类型_08

#使用ix按索引标签和位置混合提取数据df.ix[:'2021-03-26',:3]

Python数据分析，办公自动化，数据选取_数据类型_09

3、条件筛选

Python数据分析，办公自动化，数据选取_数据类型_10

df[(df['城市']=='北京') & (df['年龄']>30)]

Python数据分析，办公自动化，数据选取_数据类型_11

#布尔索引加普通索引选择指定的行和列df[df['年龄']>30][['用户ID','城市','成交量']]

Python数据分析，办公自动化，数据选取_数据_12

#切片索引加普通索引选择指定的行和列df.iloc[0:3][['用户ID','城市','成交量']]

Python数据分析，办公自动化，数据选取_数据类型_13

三、数据内容调整

1、修改数据类型

#数据类型修改df.dtypes

Python数据分析，办公自动化，数据选取_数据类型_14

#将用户ID数值类型转化为字符串类型df['用户ID'] = df['用户ID'].astype(str)df['用户ID'].dtype

Python数据分析，办公自动化，数据选取_数据类型_15

2、去除空格

Python数据分析，办公自动化，数据选取_数据_16

df['城市'].str.strip()

Python数据分析，办公自动化，数据选取_数据_17

3、数据替换

df['城市'] = df['城市'].replace('北京','北京市')df['城市']

Python数据分析，办公自动化，数据选取_数据类型_18

4、截取部分字符

#截取部分字符到日期日df['日期'] = df['日期'].astype(str)df['日期'].str[8:10]

Python数据分析，办公自动化，数据选取_数据类型_19

四、数据规整

1、数据排序

#排序，以成交量降序排列df.sort_values(['成交量'],ascending=False)

Python数据分析，办公自动化，数据选取_字段_20

2、数据分类

#使用where进行判断，条件满足为第一个值，不满足则返回第二个值df['达成情况']=np.where(df['成交量']>3000,'达成量高','达成量低')df

Python数据分析，办公自动化，数据选取_数据类型_21

标签：数据分析,办公自动化,索引,Python,成交量,df,iloc,数据,ID
From： https://blog.51cto.com/u_15828536/5757083

Python数据分析，办公自动化，数据拼接与连接
日常数据分析中，需要将多个表进行合并，包括表的纵向拼接以及表的横向连接，将多个小表组合成为一张大表，使用的方法有Excel中的Vlookup函数法，SQL中UNION和JOIN的方法，以及Pandas模......
Python数据分析，办公自动化，数据分组与透视
数据分组是对相同类别的数据进行汇总，而数据透视表是通过对行或列的不同组合对数据进行汇总，所使用的汇总方法有求和、计数、平均值、标准差等，本文使用Python对数据进行数据分......
Python数据分析，办公自动化，数据预处理
数据分析时，首先应对数据进行清洗，这里将数据清洗分为重复值处理、缺失值处理、异常值处理三个部分，重复值处理可删除重复的字段，缺失值处理可以用线性插值、填充为0或用均值填......
EXCEL数据分析，迷你图制作，另类的数据图表
在数据分析中，迷你图可以简单直观的反应数据变化情况，其制作简单，可以对一行中一系列的数据进行数据比较和趋势分析。本文使用案例数据制作迷你图，所使用的方法有，REPT函数法，以及......
SQL数据分析，窗口函数
本文讲解窗口函数的概念，窗口函数与数据分组的功能相似，可以指定数据窗口进行统计分析，但窗口函数与数据分组又有所区别，窗口函数对每个组返回多行，而数据分组对每个组只返回一行......
SQL数据分析，子查询
子查询用于为主查询返回其所需数据，或者对检索数据进行进一步的限制,通常将一个查询（子查询）的结果作为另一个查询（主查询）的数据来源或判断条件，常见的子查询有WHERE子查询，HAVING......
SQL数据分析，分组与透视
数据分组是对相同类别的数据进行汇总，而数据透视表是通过对行或列的不同组合对数据进行汇总，所使用的汇总方法有求和、计数、平均值、标准差等，本文使用SQL对数据进行数据分组......
SQL数据分析，数据提取与筛选
一张表中通常会包含很多字段，造成数据冗余，在做数据分析时，我们仅需要提取数据分析所需要的字段，这里就需要用到数据选取的知识点，同时还可以依据特定条件筛选。本文介绍数据提取......
Python实战—基于KNN算法尾鸢花数据集分类
KNN模型理论K最近邻分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中......
使用Python同时读取和写入同一个文件
前言在平时想要使用python修改文件部分内容的时候，常用的做法是使用open函数(默认模式为read)打开一个文件，然后关闭文件，然后再使用write模式去写入更新的内容，最后关闭。这......

Python数据分析，办公自动化，数据选取

相关文章

赞助商

阅读排行