首页 > 编程语言 >Python数据分析,办公自动化,数据选取

Python数据分析,办公自动化,数据选取

时间:2022-10-14 16:07:58浏览次数:57  
标签:数据分析 办公自动化 索引 Python 成交量 df iloc 数据 ID



一张表中通常会包含很多字段,造成数据冗余,在做数据分析时,我们仅需要提取数据分析所需要的字段,这里就需要用到数据选取的知识点。

本文构建数据表做数据索引,然后对数据内容进行调整,包含修改数据类型、去除空格、数据替换、截取字符等,最后做数据规整。

一、构建数据表


首先导入常用的库,设置一些数据字段,构建一张数据表。


importimportimport
df = pd.DataFrame({'用户ID':[1001,1002,1003,1004,1005,1006],'日期':pd.date_range(datetime.datetime(2021,3,23),periods=6),'城市':['北京', '上海', '广州', '上海', '杭州', '北京'],'年龄':[23,44,54,32,34,32],'性别':['F','M','M','F','F','F'],'成交量':[3200,1356,2133,6733,2980,3452]},columns =['用户ID','日期','城市','年龄','性别','成交量'])df

Python数据分析,办公自动化,数据选取_数据类型

二、数据索引


1、索引修改


#修改索引,直接赋值给Index即可df.index=list('abcdef')df

Python数据分析,办公自动化,数据选取_数据类型_02

2、数据索引

索引某行,有三种方法,一种是loc按照名字索引,另一种是iloc按照下标索引,Ix是loc和iloc的混合,既能按索引标签提取,也能按位置进行数据提取。



#索引两列df.loc[:,['城市','成交量']]

Python数据分析,办公自动化,数据选取_数据类型_03


#索引前两行,两列df.loc[['a','b'],['城市','成交量']]

Python数据分析,办公自动化,数据选取_字段_04


#获取第一列、第二列数据df.iloc[:,0:2]

Python数据分析,办公自动化,数据选取_字段_05

    Python数据分析,办公自动化,数据选取_数据类型_06


    # 仅取出第1行的数据df.iloc[0]

    Python数据分析,办公自动化,数据选取_字段_07


    #索引全部行数据df.iloc[:,[0, 1, 2]]

    Python数据分析,办公自动化,数据选取_数据类型_08


    #使用ix按索引标签和位置混合提取数据df.ix[:'2021-03-26',:3]

    Python数据分析,办公自动化,数据选取_数据类型_09

    3、条件筛选


    Python数据分析,办公自动化,数据选取_数据类型_10


    df[(df['城市']=='北京') & (df['年龄']>30)]

    Python数据分析,办公自动化,数据选取_数据类型_11


    #布尔索引加普通索引选择指定的行和列df[df['年龄']>30][['用户ID','城市','成交量']]

    Python数据分析,办公自动化,数据选取_数据_12


    #切片索引加普通索引选择指定的行和列df.iloc[0:3][['用户ID','城市','成交量']]

    Python数据分析,办公自动化,数据选取_数据类型_13

    三、数据内容调整


    1、修改数据类型


    #数据类型修改df.dtypes

    Python数据分析,办公自动化,数据选取_数据类型_14


    #将用户ID数值类型转化为字符串类型df['用户ID'] = df['用户ID'].astype(str)df['用户ID'].dtype

    Python数据分析,办公自动化,数据选取_数据类型_15

    2、去除空格


    Python数据分析,办公自动化,数据选取_数据_16


    df['城市'].str.strip()

    Python数据分析,办公自动化,数据选取_数据_17

    3、数据替换



    df['城市'] = df['城市'].replace('北京','北京市')df['城市']

    Python数据分析,办公自动化,数据选取_数据类型_18

    4、截取部分字符




    #截取部分字符到日期日df['日期'] = df['日期'].astype(str)df['日期'].str[8:10]

    Python数据分析,办公自动化,数据选取_数据类型_19

    四、数据规整


    1、数据排序



    #排序,以成交量降序排列df.sort_values(['成交量'],ascending=False)

    Python数据分析,办公自动化,数据选取_字段_20

    2、数据分类




    #使用where进行判断,条件满足为第一个值,不满足则返回第二个值df['达成情况']=np.where(df['成交量']>3000,'达成量高','达成量低')df

    Python数据分析,办公自动化,数据选取_数据类型_21



    标签:数据分析,办公自动化,索引,Python,成交量,df,iloc,数据,ID
    From: https://blog.51cto.com/u_15828536/5757083

    相关文章

    • Python数据分析,办公自动化,数据拼接与连接
      日常数据分析中,需要将多个表进行合并,包括表的纵向拼接以及表的横向连接,将多个小表组合成为一张大表,使用的方法有Excel中的Vlookup函数法,SQL中UNION和JOIN的方法,以及Pandas模......
    • Python数据分析,办公自动化,数据分组与透视
      数据分组是对相同类别的数据进行汇总,而数据透视表是通过对行或列的不同组合对数据进行汇总,所使用的汇总方法有求和、计数、平均值、标准差等,本文使用Python对数据进行数据分......
    • Python数据分析,办公自动化,数据预处理
      数据分析时,首先应对数据进行清洗,这里将数据清洗分为重复值处理、缺失值处理、异常值处理三个部分,重复值处理可删除重复的字段,缺失值处理可以用线性插值、填充为0或用均值填......
    • EXCEL数据分析,迷你图制作,另类的数据图表
      在数据分析中,迷你图可以简单直观的反应数据变化情况,其制作简单,可以对一行中一系列的数据进行数据比较和趋势分析。本文使用案例数据制作迷你图,所使用的方法有,REPT函数法,以及......
    • SQL数据分析,窗口函数
      本文讲解窗口函数的概念,窗口函数与数据分组的功能相似,可以指定数据窗口进行统计分析,但窗口函数与数据分组又有所区别,窗口函数对每个组返回多行,而数据分组对每个组只返回一行......
    • SQL数据分析,子查询
      子查询用于为主查询返回其所需数据,或者对检索数据进行进一步的限制,通常将一个查询(子查询)的结果作为另一个查询(主查询)的数据来源或判断条件,常见的子查询有WHERE子查询,HAVING......
    • SQL数据分析,分组与透视
      数据分组是对相同类别的数据进行汇总,而数据透视表是通过对行或列的不同组合对数据进行汇总,所使用的汇总方法有求和、计数、平均值、标准差等,本文使用SQL对数据进行数据分组......
    • SQL数据分析,数据提取与筛选
      一张表中通常会包含很多字段,造成数据冗余,在做数据分析时,我们仅需要提取数据分析所需要的字段,这里就需要用到数据选取的知识点,同时还可以依据特定条件筛选。本文介绍数据提取......
    • Python实战—基于KNN算法尾鸢花数据集分类
      KNN模型理论K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中......
    • 使用Python同时读取和写入同一个文件
      前言在平时想要使用python修改文件部分内容的时候,常用的做法是使用open函数(默认模式为read)打开一个文件,然后关闭文件,然后再使用write模式去写入更新的内容,最后关闭。这......