首页 > 其他分享 >【matplotlib 实战】--直方图

【matplotlib 实战】--直方图

时间:2023-10-09 09:57:46浏览次数:42  
标签:-- data matplotlib df 直方图 分布 区间 数据

直方图,又称质量分布图,用于表示数据的分布情况,是一种常见的统计图表。

一般用横轴表示数据区间,纵轴表示分布情况,柱子越高,则落在该区间的数量越大。
构建直方图时,首先首先就是对数据划分区间,通俗的说即是划定有几根柱子(比如,1980年~2020年的数据,每5年划分一个区间的话,共8个区间)。
接着,对落在每个区间的数值进行统计计算, 最后,绘制矩形,高度由每个区间的统计结果决定。

直方图柱状图看似相像,实则完全不同。
前者反映数据分布情况,后者则不具备此功能,只能对数值进行比较。
也就是说,柱状图是离散的因此柱子间有空隙;但直方图的数据是连续的数值变量,因此柱子间是没有空隙的。

1. 主要元素

直方图的主要元素包括:

  1. 横轴:表示数据的取值范围或分组区间。
  2. 纵轴:表示该区间内数据的频率或数量。
  3. 柱状条高度:表示每个区间内数据的频率或数量,柱状条的高度代表该区间内数据的数量多少。
  4. 柱状条面积:表示不同区间内数据的总和,有时候面积是无意义的,只看高度。

此图片来自 antv 官网

2. 适用的场景

直方图适用于以下分析场景:

  • 数据分布分析:直方图可以帮助我们了解数据的分布情况,包括数据的中心趋势、离散程度和偏斜程度等。通过观察直方图的形状,我们可以判断数据是正态分布、偏态分布还是有其他特殊的分布形式。
  • 异常检测:直方图可以帮助我们识别出数据中的异常情况。通过观察直方图中的离群点或异常值,我们可以发现数据中的异常情况,从而进行数据清洗和异常检测。
  • 数据预处理:直方图可以指导我们选择合适的数据预处理方法。通过观察直方图,我们可以了解数据的分布范围和形态,从而决定是否需要对数据进行归一化、标准化或对数变换等预处理操作。
  • 数据比较:直方图可以帮助我们比较不同数据集之间的差异。通过绘制多个直方图并进行对比,我们可以观察到不同数据集之间的分布差异,从而进行数据分析和解释。

3. 不适用的场景

直方图可能不适用于以下分析场景:

  • 时间序列分析:直方图通常用于表示数据的分布情况,而对于时间序列数据,直方图无法展示数据随时间变化的趋势和模式。
  • 数据关联分析:直方图无法直接展示数据之间的相关性或关联性。
  • 多维数据分析:直方图主要适用于一维数据的分析,无法直接展示多维数据的分布情况。
  • 数据模型拟合:直方图可以展示数据的分布情况,但无法直接拟合数据的概率分布或模型。
  • 数据聚类分析:直方图无法直接展示数据的聚类情况,无法将数据点分组或分类。

4. 分析实战

本次准备用直方图统计下某个年度我们进出口总额的分布情况。

4.1. 数据来源

这次选用国家统计局公开的对外经济贸易数据:
https://databook.top/nation/A06

fp = "d:/share/A06050101.csv"

df = pd.read_csv(fp)
df

image.png

4.2. 数据清理

数据中有很多年份的数据为0,也就是有很多的缺失值。
所以,只选取了2021年亚洲各国的进出口总额数据来分析,

其中有2个数据在分析绘图前需要清理,
一个是中国同亚洲其他国家(地区)进出口总额(万美元),与其他值差别很大,所以清理;
另一个是中国同亚洲进出口总额(万美元),这是个汇总数据,也清理了。

data = df[(df["sj"] == 2021) & 
        (df["zb"] != "A060501011E") & 
        (df["zb"] != "A0605010101")].copy()

#原始数值太大,单位换成(亿美元)
data["value"] = data["value"] / 10000
data.head()

image.png

一共有48条数据,这是前5条。

4.3. 分析结果可视化

绘制直方图比较简单,核心是两个参数:

  1. **x **参数:一个列表,也就是这次示例中就是各个亚洲国家的进出口总额
  2. **bins **参数:设置数据分成几组,直方图会统计每个分组中的数据个数
plt.hist(data["value"].tolist(), bins=10)
plt.title("中国与亚洲各国进出口总额(亿美元) 分布")
plt.show()

image.png

上面绘图时,分了10个组。(可以试试调整分组个数,看看不同的图形效果)
从图中可以看出,2021年,亚洲各国与中国的进出口总额在 0~300(亿美元)左右的国家最多,有30多个;
还有2,3个国家与中国的进出口总额甚至超过了3500亿美元。

标签:--,data,matplotlib,df,直方图,分布,区间,数据
From: https://www.cnblogs.com/wang_yb/p/17750784.html

相关文章

  • vasp5.4.4+vaspkit安装
    vasp用gnu编译安装是最方便的,下面这个教程非常完整好用vasp-GNU注意看下方评论,第7步更改第33行处,需要删掉-L。vaspkit从sourceforge下载vaspkit打开官网后,右键download获取直链用wget下载即可。解压后运行./setup.sh最后vim~/.vaspkit更改赝势文件路径即可。赝势路径......
  • TinyMCE——自定义工具栏按钮(基础按钮、下拉框按钮、弹框按钮等)
    详细配置查看官方文档:https://www.tiny.cloud/docs/tinymce/6/custom-toolbarbuttons/  配置方式:tinymce.init({selector:'#editor',toolbar:'myCustomToolbarButton',setup:(editor)=>{editor.ui.registry.addButton('myCustomToolb......
  • PostgreSQL添加角色,用户,更新密码,设置权限等配置操作
    创建用户:CREATEUSERqueryWITHPASSWORD'123456';授予用户权限:(1)给予权限:grantgrantselecton表名to用户名;(2)撤消权限:revokerevokeselecton表名from用户名;给用户授予全部表的权限:grantallonalltablesinschemapublictopublic;查看用户权限:select*fr......
  • C++基础入门
    C++基础入门1C++初识1.1第一个C++程序编写一个C++程序总共分为4个步骤创建项目创建文件编写代码运行程序1.1.1创建项目​ VisualStudio是我们用来编写C++程序的主要工具,我们先将它打开1.1.2创建文件右键源文件,选择添加->新建项给C++文件起个名称,然后点击添......
  • Go - Creating Linked Lists
    Problem: Youwanttocreatealinkedlistdatastructure.Solution: Createanelementstructthathasapointertothenextelement.Wrapanotherstructaroundthefirstelementtocreatealinkedlist. Alinkedlistisalinearcollectionofelements......
  • 基于Node.js的大文件分片上传
    我们在做文件上传的时候,如果文件过大,可能会导致请求超时的情况。所以,在遇到需要对大文件进行上传的时候,就需要对文件进行分片上传的操作。同时如果文件过大,在网络不佳的情况下,如何做到断点续传?也是需要记录当前上传文件,然后在下一次进行上传请求的时候去做判断。前端1.index.ht......
  • 10.9算法
    第一个错误的版本你是产品经理,目前正在带领一个团队开发新的产品。不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所有版本都是错的。假设你有n个版本[1,2,...,n],你想找出导致之后所有版本出错的第一个错误的版本......
  • 最短路
    前言定义从某一点出发到某一点的最短路性质对于边长为正的图:任意两个节点之间的最短路,不会经过重复的节点。任意两个节点之间的最短路,不会经过重复的边。任意两个节点之间的最短路,任意一条的节点数不会超过\(n\),边数不会超过\(n-1\)。记号\(n\)为图上点的数目......
  • 树结构操作通用方法
    /***树操作通用方法,将一些常用方法提炼出来,方便使用。*@module树操作工具*/import{cloneDeep}from'lodash';import{uniqueArray,arrayRemoveAll,arrayRemove}from'./index';/***将数据转换成tree所需格式*@param{object}data要进行转换的object......
  • 数据解析之XPATH
    数据解析之XPATH1、xpath安装与使用安装安装lxml库pipinstalllxml-ipip源2、解析流程与使用解析流程实例化一个etree的对象,把即将被解析的页面源码加载到该对象调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取使用导入lxml.etreef......