首页 > 其他分享 >Pandas库学习笔记(6) -- Pandas 基本方法

Pandas库学习笔记(6) -- Pandas 基本方法

时间:2024-02-04 17:15:40浏览次数:30  
标签:25 23 -- Series 笔记 pd print import Pandas

Pandas 基本方法实例

到目前为止,我们了解了三个Pandas DataStructures以及如何创建它们。由于它在实时数据处理中的重要性,因此我们将主要关注DataFrame对象,并讨论其他一些DataStructures。

方法 描述
axes 返回行轴标签的列表
dtype 返回对象的dtype。
empty 如果Series为空,则返回True。
ndim 根据定义返回基础数据的维数。
size 返回基础数据中的元素数。
values 将Series返回为ndarray。
head() 返回前n行。
tail() 返回最后n行。
接下来我们创建一个Series,并看看上所有列表的属性操作
 import pandas as pd
 import numpy as np
 # 用100随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print(s)
运行结果:

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

axes

返回Series标签的列表

 import pandas as pd
 import numpy as np
 # 用100随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("The axes are:")
 print(s.axes)
运行结果:

 The axes are:
 [RangeIndex(start=0, stop=4, step=1)]

以上结果是0到5(即[0,1,2,3,4])。

empty

返回布尔值,说明对象是否为空。True表示对象为空

 import pandas as pd
 import numpy as np
 # 用100随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("Is the Object empty?")
 print(s.empty)
运行结果:

Is the Object empty?
False

ndim

返回对象的维数。根据定义,Series 是一个1D 数据结构,所以它返回

 
 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("The dimensions of the object:")
 print(s.ndim)
运行结果:

     0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

size

返回Series的大小(长度).

 
import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(2))
 print s
 print ("The size of the object:")
 print(s.size)
运行结果:

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

values

以数组形式返回Series数据

 
 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("The actual data series is:")
 print(s.values)
运行结果:

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Head 和 Tail

要查看Series或DataFrame对象的头尾数据,请使用head() 和tail() 方法。

head() 返回前n行(观察索引值)。默认显示的元素数是5,但是您可以传递自定义数字。

 
 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("最初的系列是:")
 print s
 print ("数据系列的前两行:")
 print(s.head(2))
运行结果:

最初的系列是:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

数据系列的前两行:
0   0.720876
1  -0.765898
dtype: float64

tail() 返回最后n行(观察索引值)。默认显示的元素数是5,但是您可以传递自定义数字。

 
 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print("最初的系列是:")
 print(s)
 print("数据序列的最后两行:")
 print(s)tail(2)
运行结果:

最初的系列是:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

数据序列的最后两行:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame 基本功能

现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。

属性/方法 描述
T 行和列互相转换
axes 返回以行轴标签和列轴标签为唯一成员的列表。
dtypes 返回此对象中的dtypes。
empty 如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。
ndim 轴数/数组尺寸。
shape 返回表示DataFrame维度的元组。
size NDFrame中的元素数。
values NDFrame的数字表示。
head() 返回前n行。
tail() 返回最后n行。

下面我们下创建一个DataFrame并查看上述属性的所有操作方式。

Example

 
import pandas as pd
 import numpy as np
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our data series is:")
 print(df)
运行结果:

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transpose)

返回DataFrame的转置。行和列将互换。

 
 import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("数据序列的转置是:")
 print(df.T)
运行结果:

数据序列的转置是:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

axes

返回行轴标签和列轴标签的列表。

 import pandas as pd
 import numpy as np
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("行轴标签和列轴标签是:")
 print(df.axes)
运行结果:

  行轴标签和列轴标签是:
 [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
 dtype='object')]

 

dtypes

返回每一列的数据类型。

   
 import pandas as pd
 import numpy as np
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("每列的数据类型如下:")
 print(df.dtypes)
运行结果:

每列的数据类型如下:
Age     int64
Name    object
Rating  float64
dtype: object

empty

返回布尔值,说明对象是否为空;True表示对象为空。

 
 import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Is the object empty?")
 print(df.empty)
运行结果:

 Is the object empty?
 False

ndim

返回对象的数量。根据定义,DataFrame是2D对象。

 
import pandas as pd
 import numpy as np
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our object is:")
 print df
 print ("The dimension of the object is:")
 print(df.ndim)
运行结果:

     Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

shape

返回表示DataFrame维度的元组。元组(a,b),其中a表示行数,b表示列数。

 
 import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our object is:")
 print df
 print ("The shape of the object is:")
 print(df.shape)
运行结果:

     Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

size

返回DataFrame中的元素数。

 
import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our object is:")
 print df
 print ("The total number of elements in our object is:")
 print(df.size)
运行结果:

     Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

values

以NDarray的形式返回DataFrame中的实际数据。

 
import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our object is:")
 print df
 print ("The actual data in our data frame is:")
 print(df.values)
运行结果:

     Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

Head & Tail

要查看DataFrame对象的头尾数据,请使用head()和tail()方法。head() 返回前n行(观察索引值)。默认显示的元素数是5,但是您可以传递自定义数字。

 
 import pandas as pd
 import numpy as np
  
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]),
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("Our data frame is:")
 print df
 print ("The first two rows of the data frame is:")
 print(df.head(2))
运行结果:

     Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() 返回最后n行(观察索引值)。默认显示的元素数是5,但是您可以传递自定义数字。

 
import pandas as pd
 import numpy as np
 # 创建Series字典
 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Age':pd.Series([25,26,25,23,30,29,23]), 
    'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # 创建一个 DataFrame
 df = pd.DataFrame(d)
 print ("我们的数据帧是:")
 print df
 print ("数据帧的最后两行是:")
 print(df.tail(2))
运行结果:

我们的数据帧是:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

数据帧的最后两行是:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8

 

   

标签:25,23,--,Series,笔记,pd,print,import,Pandas
From: https://www.cnblogs.com/WG11/p/18006516

相关文章

  • c的多级指针
    指针的本质就是一个普通变量,它的值表示的是一个内存地址,这个地址中可能存放了其它变量。那么二级指针其实也是一个普通的变量,这个变量中同样也存放了一个内存地址,而这个内存地址是一个指针变量的地址比如:inta=0;intb=1;int*p=&a;int**p2=&p;*(pointer)就是修......
  • MATLAB快速参考
    原文GitHub-MATLAB-cheat-sheet,本文做了翻译和修改MATLAB即MatLABoratory(一做坐一天坐垫实验室)MATrixLABoratory(矩阵实验室)。是一种常用于工程和数学的强大软件,也是一门语言。注意:MATLAB中的函数基本有多种不同参数的重载,本手册只写其中比较常用的方法,实际使用时可以善......
  • Teamcenter AWC开发:调用SOA时,报错No SOA service for Bom-2008-06-StructureManagemen
    1、报错:2、分析:我一直在纠结,究竟是SOA接口报错。还是没有这个SOA接口服务。因为在AWC生成的SOA文档,是有这个接口和服务的。后来明白了。如果是SOA接口报错。在网络中看到这个接口是有响应的。也就是有返回的。 但是NoSOAservice报错,网络中,看到接口时没有返回的。 3......
  • PowerShell是一种跨平台的任务自动化解决方案,包括命令行shell、脚本语言和配置管理框
    PowerShell是一种跨平台的任务自动化解决方案,包括命令行shell、脚本语言和配置管理框架。PowerShell运行在Windows、Linux和macOS上。创建一个思维导图来概述PowerShell命令可能包括以下几个主要部分:基础命令操作Get-Help:获取命令帮助Get-Command:查找命令Get-Member:查看对......
  • 编辑器扩展
    编辑器扩展usingUnityEditor;usingUnityEngine;publicclassBolive:Editor//要继承Editor脚本{//脚本要放在Editor文件夹中[MenuItem("Ques/Muse",false,10)]//第一个参数是目录结构,第二个是是否需要指定物体才可以点击,第三个是决定排序的序号,默认为1000......
  • 代码混淆技术综述与优化方法
    摘要本文介绍了代码混淆的概念和目的,并提供了Python代码混淆的宏观思路。同时,还介绍了一种在线网站混淆Python代码的方法,并给出了混淆前后的示例代码。引言在当今信息时代,软件代码的保护显得尤为重要。代码混淆是一种常用的保护代码的技术手段,通过对代码进行加密、压缩、乱序等......
  • redis+python练习小问题
     1、“cannot import name 'Redis' from 'redis'"//python文件名用了“redis.py”,改成其他的就好了。这个一定要注意,很容易犯这种错,想要做什么功能,就用这个功能命名。2、NameError:name 'redis' is not defined//我开始是fromredisimportRedis,改成importredis,......
  • 《jsp篇》jsp是什么?
    前文链接:https://www.zhihu.com/question/437632592/answer/1677694755链接:https://www.zhihu.com/question/23984162/answer/689106407现在(2019)对于后端程序员来说,可以不学JSP。但是如果你是非科班,不论是在培训班还是自学,最好都了解一下。技术不扎实的培训班学员,基本很难找到一......
  • 数据库设计三大范式
    第一范式(1NF):属性不可分割,即每个属性都是不可分割的原子项。(实体的属性即表中的列)比如:姓名、年龄、电话,要分三个字段,不能放一个里面,方便查询。第二范式(2NF):满足第一范式;且不存在部分依赖,即非主属性必须完全依赖于主属性。(主属性即主键;完全依赖是针对于联合主键的情况,非主键列......
  • 不同品牌交换机mac地址与ip地址绑定命令
    华为交换机:使用user-bindstatic命令可以在全局或接口模式下配置ip地址、mac地址和接口的绑定。例如,如果要将192.168.1.100的ip地址和00e0-fc00-0001的mac地址绑定到GigabitEthernet0/0/1接口上,可以使用以下命令:[Switch]user-bindstaticip-address192.168.1.100mac-addres......