首页 > 其他分享 >100 个 pandas 数据分析函数总结 转载

100 个 pandas 数据分析函数总结 转载

时间:2023-06-27 09:01:11浏览次数:68  
标签:数据分析 函数 Series random np pd print 100 pandas

经过一段时间的整理,本期将分享我认为比较常规的100个实用函数,这些函数大致可以分为六类,分别是统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。一、统计汇总函数数据分析过程中,必然要做一些数据的统计汇总工作,那么对于这一块的数据运算有哪些可用的函数可以帮助到我们呢?具体看如下几张表。
图片
图片

import pandas as pd
import numpy as np
x = pd.Series(np.random.normal(2,3,1000))
y = 3*x + 10 + pd.Series(np.random.normal(1,2,1000))

# 计算x与y的相关系数
print(x.corr(y))

# 计算y的偏度
print(y.skew())

# 计算y的统计描述值
print(x.describe())

z = pd.Series(['A','B','C']).sample(n = 1000, replace = True)
# 重新修改z的行索引
z.index = range(1000)
# 按照z分组,统计y的组内平均值
y.groupby(by = z).aggregate(np.mean)
图片
图片
# 统计z中个元素的频次
print(z.value_counts())

a = pd.Series([1,5,10,15,25,30])
# 计算a中各元素的累计百分比
print(a.cumsum() / a.cumsum()[a.size - 1])

图片


二、数据清洗函数同样,数据清洗工作也是必不可少的工作,在如下表格中罗列了常有的数据清洗的函数。图片
x = pd.Series([10,13,np.nan,17,28,19,33,np.nan,27])
#检验序列中是否存在缺失值
print(x.hasnans)

# 将缺失值填充为平均值
print(x.fillna(value = x.mean()))

# 前向填充缺失值
print(x.ffill())
图片图片
income = pd.Series(['12500元','8000元','8500元','15000元','9000元'])
# 将收入转换为整型
print(income.str[:-1].astype(int))

gender = pd.Series(['男','女','女','女','男','女'])
# 性别因子化处理
print(gender.factorize())

house = pd.Series(['大宁金茂府 | 3室2厅 | 158.32平米 | 南 | 精装',
                   '昌里花园 | 2室2厅 | 104.73平米 | 南 | 精装',
                   '纺大小区 | 3室1厅 | 68.38平米 | 南 | 简装'])
# 取出二手房的面积,并转换为浮点型
house.str.split('|').str[2].str.strip().str[:-2].astype(float)
图片
三、数据筛选
数据分析中如需对变量中的数值做子集筛选时,可以巧妙的使用下表中的几个函数,其中部分函数既可以使用在序列身上,也基本可以使用在数据框对象中。
图片
np.random.seed(1234)
x = pd.Series(np.random.randint(10,20,10))

# 筛选出16以上的元素
print(x.loc[x > 16])

print(x.compress(x > 16))

# 筛选出13~16之间的元素
print(x[x.between(13,16)])

# 取出最大的三个元素
print(x.nlargest(3))

y = pd.Series(['ID:1 name:张三 age:24 income:13500',
               'ID:2 name:李四 age:27 income:25000',
               'ID:3 name:王二 age:21 income:8000'])
# 取出年龄,并转换为整数
print(y.str.findall('age:(\d+)').str[0].astype(int))

图片


四、绘图与元素级函数图片
np.random.seed(123)
import matplotlib.pyplot as plt
x = pd.Series(np.random.normal(10,3,1000))
# 绘制x直方图
x.hist()
# 显示图形
plt.show()

# 绘制x的箱线图
x.plot(kind='box')
plt.show()

installs = pd.Series(['1280万','6.7亿','2488万','1892万','9877','9877万','1.2亿'])
# 将安装量统一更改为“万”的单位
def transform(x):
    if x.find('亿') != -1:
        res = float(x[:-1])*10000
    elif x.find('万') != -1:
        res = float(x[:-1])
    else:
        res = float(x)/10000
    return res
installs.apply(transform)
图片

图片

图片
五、时间序列函数

图片图片图片
六、其他函数
图片
import numpy as np
import pandas as pd

np.random.seed(112)
x = pd.Series(np.random.randint(8,18,6))
print(x)
# 对x中的元素做一阶差分
print(x.diff())

# 对x中的元素做降序处理
print(x.sort_values(ascending = False))

y = pd.Series(np.random.randint(8,16,100))
# 将y中的元素做排重处理,并转换为列表对象
y.unique().tolist()

图片

图片
如果喜欢本篇文章,欢迎转发、点赞。

标签:数据分析,函数,Series,random,np,pd,print,100,pandas
From: https://www.cnblogs.com/testzcy/p/17507714.html

相关文章

  • 十年电商数据分析经验分享【速收藏】
    电商行业它不仅改变了人们购物的方式,还改变了传统商业模式。如何利用电商平台上庞大的用户群体、商品数据和交易数据等宝贵的数据资源,成了电商企业发展和竞争的关键。那么,如何进行电商数据分析,获得更多的商业价值,为企业决策带来新思路和方案呢?这就需要有一款好用的、可靠的BI大数据......
  • MUR20100DC-ASEMI快恢复二极管MUR20100DC
    编辑-ZMUR20100DC在TO-263封装里采用的2个芯片,其尺寸都是102MIL,是一款共阴极快恢复对管。MUR20100DC的浪涌电流Ifsm为200A,漏电流(Ir)为10uA,其工作时耐温度范围为-55~150摄氏度。MUR20100DC采用抗冲击硅芯片材质,里面有2颗芯片组成。MUR20100DC的电性参数是:正向电流(Io)为20A,反向耐压......
  • ASEMI快恢复二极管MUR20100DCR的性能与应用
    编辑-Z本文主要介绍了MUR20100DCR二极管的性能与应用。我们将对MUR20100DCR二极管的基本性能、不同领域的应用和优势与不足进行分析。 1、MUR20100DCR二极管的基本性能MUR20100DCR二极管是一种高性能的超快速二极管,具有高电压、高电流和低漏电流等特点。它采用了先进的制造工艺,使......
  • MUR20100DC-ASEMI快恢复二极管MUR20100DC
    编辑-ZMUR20100DC在TO-263封装里采用的2个芯片,其尺寸都是102MIL,是一款共阴极快恢复对管。MUR20100DC的浪涌电流Ifsm为200A,漏电流(Ir)为10uA,其工作时耐温度范围为-55~150摄氏度。MUR20100DC采用抗冲击硅芯片材质,里面有2颗芯片组成。MUR20100DC的电性参数是:正向电流(Io)为20A,反向耐......
  • ASEMI快恢复二极管MUR20100DCR的性能与应用
    编辑-Z本文主要介绍了MUR20100DCR二极管的性能与应用。我们将对MUR20100DCR二极管的基本性能、不同领域的应用和优势与不足进行分析。 1、MUR20100DCR二极管的基本性能MUR20100DCR二极管是一种高性能的超快速二极管,具有高电压、高电流和低漏电流等特点。它采用了先进的制造工......
  • Hugging Face 入选 Time《时代周刊》2023 全球前 100 最具影响力的公司
    ......
  • js三位分节法(数字大于1000时以,分割)
    1console.log(newIntl.NumberFormat().format(1000))//1,0002console.log(newIntl.NumberFormat('zh-CN').format(1000))//1,000中文3console.log(newIntl.NumberFormat('en-US').format(1000))//1,000英文4constformatter=ne......
  • 数据分析-用户路径分析
    用户路径分析是一种通过桑基图进行可视化展示的方法,用于了解用户在APP或网站中的访问路径。桑基图可以帮助我们分析用户的行为偏好、优化网站以及评估营销推广的效果。举个实例来说明用户路径分析的过程。假设我们有一个在线播客平台,想要了解用户在平台上的访问路径。首先,我们需要......
  • #py程序:列出100以内所有素数
    py程序:列出100以内所有素数以下是一个python程序,用来列出100以内所有素数。fornuminrange(2,101):foriinrange(2,num):if(num%i)==0:breakelse:print(num)程序首先循环遍历2到100之间的所有数字。每个数字都通过第二个......
  • ASEMI快恢复二极管MUR80100PT功能和应用实用指南
    编辑-ZMUR80100PT是一种高性能、超快恢复二极管,设计用于各种应用,包括电源、逆变器和电机控制系统。本文将提供一个全面的指南,以了解MUR80100PT的特点和应用,以及它在提高电子设备的效率和可靠性方面的重要性。 MUR80100PT的特点 1.超快恢复时间:MUR80100PT拥有仅35ns的超快恢复时间......