首页 > 编程语言 >无涯教程-Python - 中心趋势

无涯教程-Python - 中心趋势

时间:2023-12-01 20:32:09浏览次数:52  
标签:25 教程 Python Age NaN 无涯 df pd print

数学上的中心趋势是指测量数据集值的中心或位置分布,它给出了数据集中数据平均值的概念,并指出了这些值在数据集中分布的范围。反过来,这有助于评估将新输入拟合到现有数据集中的机会,从而评估成功的可能性。

可以使用pandas python库中的方法计算出集中趋势的三个主要量度。

  • 均值(Mean)     - 它是数据的平均值,它是值的总和除以值的数量。

  • 中值(Median)  - 当值以升序或降序排列时,它是分布中的中间值。

  • 模式(Mode)     - 它是分布中最常见的值。

均值和中位数

Pandas函数可以直接用于计算这些值。

import pandas as pd

#创建系列词典
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Learnfk','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#创建一个数据框
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()

其输出如下-

Mean Values in the Distribution
Age       31.833333
Rating     3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age       29.50
Rating     3.79
dtype: float64

计算模式

根据数据是连续的还是有最大频率的值,模式在分发中是否可用,通过下面的分布来找出模式。在这里,无涯教程有一个在分布中具有最大频率的值。

import pandas as pd

#创建系列词典
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Learnfk','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#创建一个数据框
df = pd.DataFrame(d)

print df.mode()

其输出如下-

chartprop2.png
     Age      Name
0   25.0    Andres
1    NaN  Chanchal
2    NaN    Learnfk
3    NaN      Jack
4    NaN     James
5    NaN       Lee
6    NaN    Naviya
7    NaN     Ricky
8    NaN     Smith
9    NaN     Steve
10   NaN       Tom
11   NaN       Vin

参考链接

https://www.learnfk.com/python-data-science/python-measuring-central-tendency.html

标签:25,教程,Python,Age,NaN,无涯,df,pd,print
From: https://blog.51cto.com/u_14033984/8648926

相关文章

  • 小市值选股策略代码分享(附python源码)
    小市值选股策略的核心在于通过综合分析公司的基本面、行业定位、财务健康状况以及市场趋势,来寻找那些被市场低估但具备显著成长潜力的股票,同时也要重视风险管理和投资组合的多样化。 今天来给大家分享下小市值策略代码如下:#显式导入BigQuant相关SDK模块frombigdatas......
  • Cadence OrCAD 功能操作教程
    1.导出BOM表操作顺序:选中当前要导出BOM表的原理图->Tool->BillofMaterials->设置Header和Combined->勾选OpeninExcel导出BOM表LineItemDefinition设置Header:Item\tQuantity\tReference\tPart\tPCBFootprint\tDescription\tPartNumberCombi......
  • 无涯教程-Python - 时间序列(Time)
    时间序列(TimeSeries)是一系列数据点,其中每个数据点都与时间戳关联,一个简单的示例是在给定的一天中,股票在不同时间点的价格,另一个示例是该地区一年中不同月份的降雨量。在下面的示例中,无涯教程以特定股票代码每天四分之一的股价价格为示例,将这些值捕获为一个csv文件,然后使用pan......
  • ESP32简单实现新版HC-SR04超声波模块(MicroPython+Thonny)
    一、新版HC-SR04简介新版HC-SR04,性能远超老版HC-SR04,US-015;在测距精度高于老版HC-SR04和US-015的情况下,测距范围更远,可达6米,远超一般超声波测距模块。采用CS-100A超声波测距SOC芯片,高性能,工业级,宽电压、低价格,成本击穿底价,只有普通超声波测距模块一半的价格,而性能远超普通超声波......
  • python循环与字符串
    循环与字符串循环for循环与范围defsumfromton(m,n):total=0forxinrange(m,n+1):#注意:range(x,y)是左闭右开区间,包含x,不包含ytotal+=xreturntotaldefsumfromton(m,n):returnsum(range(m,n+1))结果相同range(m,n,k)第一个参数m指起始范围第二个参数n指终......
  • 供应链安全情报 | 恶意py包伪装代理SDK进行后门攻击,目标锁定python开发者
    概述2023年11月28号,悬镜供应链安全实验室在Pypi官方仓库(https://pypi.org)监测到两起伪装成http和socks5代理SDK的开源组件投毒事件。python开发者一旦下载安装这些投毒Py包(libproxy、libsocks5),会触发执行Py包中的恶意代码,最终将导致开发者系统被投毒者植入恶意后门。这些恶意Py......
  • python开发之个微机器人的二次开发
    简要描述:登录E云平台请求URL:http://域名地址/member/login域名地址+开发者账号密码:后台系统自助开通请求方式:POST请求头Headers:Content-Type:application/json参数:参数名必选类型说明account是string开发者账号password是string开发者密码返......
  • python开发之个微机器人开发
    简要描述:取消消息接收请求URL:http://域名地址/cancelHttpCallbackUrl请求方式:POST请求头Headers:Authorization:login接口返回Content-Type:application/json无参数返回数据:参数名类型说明codestring1000成功,1001失败msgstring反馈信息成功返回示例{"message":"成功","code......
  • Python中的惰性导入/懒导入/动态导入(Lazy Import)
    参考资料:https://cloud.tencent.com/developer/article/2204701https://github.com/huggingface/diffusers想研究这个lazyimport的起因是:我想学习一下高级的算法工程师是如何构建一个pip包的,然后我发现在diffusers这个广泛使用的huggingface包的组织方式中出......
  • python--循环和字符串
    Task5和6循环和字符串for循环和循环范围for循环的特点基于特定的范围,重复执行规定次数的操作deff(m,n):total=0foriinrange(m,n+1):total+=ireturntotalf(5,10)计算机会计算5+6+7+8+9+10最后输出计算结果range()函数需要注意的是这个范围是......