首页 > 编程语言 >跟艾文学编程《零基础入门学Python》(7)pandas数据分析

跟艾文学编程《零基础入门学Python》(7)pandas数据分析

时间:2023-03-17 21:06:22浏览次数:40  
标签:数据分析 Python Series DataFrame 时间 数据 pandas


作者: 艾文,计算机硕士学位,企业内训讲师和金牌面试官,公司资深算法专家,现就职BAT一线大厂。
 
内容:跟艾文学编程《零基础入门学Python》


学习目标

  • Series 和 DataFrame
  • 索引对象
  • 时间序列
  • 类型属性分析

pandas 介绍

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。

pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。

pandas最核心的就是Series和DataFrame两个数据结构。

这两种类型的数据结构对比如下:

  • Series 1维 带有标签的同构类型数组
  • DataFrame 2维 表格结构,带有标签,大小可变,且可以包含异构的数据列

DataFrame可以看做是Series的容器,即:一个DataFrame中可以包含若干个Series。

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据

Series

一维的数据结构,数组与字典的组合,有序,但是可以使用非数字下标进行访问

创建Series

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_02

  • 输入的最后一行: 数据的类型,默认数组int64
  • 数据在第二列输出
  • 第一列数据索引,在pandas 中index

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据_03

创建Series 指定index列

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_04

创建Series使用dict类型数据

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_05

DataFrame

DataFrame:表格,并包含拍好序的列。 也可以简单理解Excel 表格

每列都有不同的数值类型(数字,字符串,布尔)。

DataFrame 有行索引(row index) 和 列索引(col index)

构建DataFrame

通过数据dict 类型,来创建一个DataFrame

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_pandas_06

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据_07

DataFrame 自动按照列排序

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_08

DataFrame 简单操作

  • 如果在已经有的DataFrame 插入一个新字段.不存在的字段(没有该字段对应数据,数据NAN)

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据分析_09

  • 获取DataFrame 的列

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据_10

  • 获取DataFrame 的某一列/多列

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_时间序列_11

  • 取DataFrame 的行数据

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据分析_12

Index Ojbects(索引对象)

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据分析_13

时间序列

时间序列指能在任何能在时间上观测到的数据。很多时间序列是有固定频率(fixed frequency)的,意思是数据点会遵照某种规律定期出现,比如每15秒,每5分钟,或每个月。时间序列也可能是不规律的(irregular),没有一个固定的时间规律。如何参照时间序列数据取决于我们要做什么样的应用,我们可能会遇到下面这些:

Timestamps(时间戳),具体的某一个时刻

Fixed periods(固定的时期),比如2007年的一月,或者2010年整整一年

Intervals of time(时间间隔),通常有一个开始和结束的时间戳。Periods(时期)可能被看做是Intervals(间隔)的一种特殊形式

Experiment or elapsed time(实验或经过的时间);每一个时间戳都是看做是一个特定的开始时间(例如,在放入烤箱后,曲奇饼的直径在每一秒的变化程度)1.5.1 日期和时间的数据类型

python 标准包表示时间和日期数据。

  • datetime
  • time
  • calendar

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_pandas_14

字符串与时间转化

  • 日期类型格式化

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据分析_15

  • pandas 中to_datetime 方法解析很多不同种类的日期表示

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_16

  • date_range 生成按照日频读的时间戳

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_pandas_17

类别数据

类别行数据基本操作

有重复部分。我们可以unique和value_counts,从一个数组提取不同的数值,并计算频度

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据_18

  • 不同单词个数

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_python_19

  • 每个类别出现次数

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_pandas_20

DataFrame 分析类型数据

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_数据分析_21

  • 查看每个字段类型

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_时间序列_22

  • 类别型字符串转化类别对象

跟艾文学编程《零基础入门学Python》(7)pandas数据分析_时间序列_23

让我们一起加油

 

标签:数据分析,Python,Series,DataFrame,时间,数据,pandas
From: https://blog.51cto.com/u_14361901/6128375

相关文章

  • 跟艾文学编程《零基础入门学Python》(01)基于Plotly的动态可视化绘图
    作者:艾文,计算机硕士学位,企业内训讲师和金牌面试官,公司资深算法专家,现就职BAT一线大厂。 内容:跟艾文学编程《零基础入门学Python》目标plotly基础概念介绍plotly......
  • python实现一个二分法
    #################                 ############################### #########################......
  • pyinstaller打包python程序
    pyinstaller打包python程序1.pyinstaller安装安装命令:#升级pip版本>>>pipinstall-Upip#安装pyinstaller>>>pipinstallpyinstaller2.pyinstaller使用1.选项......
  • 跟艾文学编程《零基础数据学Python》(02)pyecharts数据可视化
    作者:艾文,计算机硕士学位,企业内训讲师和金牌面试官,公司资深算法专家,现就职BAT一线大厂。 内容:跟艾文学编程《零基础数据学Python》学习内容学习pyecharts,我们可以通过......
  • 跟艾文学编程 《零基础入门学Python》Jupyter Notebook安装和使用
    作者:艾文,计算机硕士学位,企业内训讲师和金牌面试官,公司资深算法专家,现就职BAT一线大厂。 内容:跟艾文学编程《零基础入门学Python》本节内容● Jupyter扩展安装● Jup......
  • python虚拟环境
    操作环境:python3.10,windows10一、简略#1.使用国内华为镜像源进行安装(下载速度快)pipinstallvirtualenv-ihttps://repo.huaweicloud.com/repository/pypi/simple......
  • 【 Python 】补全fibersim 导出的xml语法
    fibersim导出的xml文件中,node和mesh部分的标签会缺失。即<R></R>变成了<R/>.以下python脚本可以自动修正importref2=open('x13.xml','w')withopen('E:\\20230314......
  • 软件测试|使用docker搞定 Python环境搭建
    前言当我们在公司的电脑上搭建了一套我们需要的Python环境,比如我们的版本是3.8的Python,那我可能有一天换了一台电脑之后,我整套环境就需要全部重新搭建,不只是Python,我们一系......
  • md5解密 python
    MD5是一种不可逆的哈希算法,这意味着您不能直接从MD5哈希值“解密”出原始数据。然而,您可以尝试使用暴力破解或查找表(如彩虹表)来猜测原始数据。暴力破解是一种尝试所有可能......
  • 用 DolphinDB 和 Python Celery 搭建一个高性能因子计算平台
    因子挖掘是量化金融研究和交易的核心工作。传统的开发流程中,通常使用Python从关系型数据库(如SqlServer,Oracle等)读取数据,在Python中进行因子计算。随着证券交易规模......