首页 > 其他分享 >【matplotlib 实战】--气泡图

【matplotlib 实战】--气泡图

时间:2023-10-20 09:22:39浏览次数:52  
标签:变量 -- data matplotlib df csv 数据 气泡

气泡图是一种多变量的统计图表,可以看作是散点图的变形。
与散点图不同的是,每一个气泡都表示三个维度的数据,除了像散点图一样有X,Y轴,气泡的大小可以表示另一个维度的数据。
例如,x轴表示产品销量,y轴表示产品利润,气泡大小代表产品市场份额百分比。

它可以帮助我们发现变量之间的模式、趋势和异常值。
通过气泡的大小和颜色,我们可以同时比较多个变量的值,并且可以快速识别出具有较大或较小数值的数据点。

1. 主要元素

气泡图通常用于展示和比较数据之间的关系和分布,可以展示三维(X,Y轴,气泡大小),甚至四维数据(X,Y轴,气泡大小,气泡颜色)之间的关系。
它的主要元素包括:

  1. 横轴和纵轴:气泡图通常使用横轴和纵轴来表示两个变量的值。这些变量可以是数值型、分类型或时间型。
  2. 气泡大小:气泡图通过气泡的大小来表示第三个变量的值。通常,气泡的大小与该变量的值成正比,较大的气泡表示较大的数值。
  3. 气泡颜色:气泡图还可以使用颜色来表示第四个变量的值。不同的颜色可以用于区分不同的数据类别或者表示不同的数值范围。

图片来自 antv 官网

2. 适用的场景

气泡图适用的分析场景包括:

  • 多变量关系分析:气通过横轴、纵轴和气泡大小,可以同时呈现三个变量的信息,帮助我们发现变量之间的模式、趋势和相关性。
  • 数据聚类和分类:气泡颜色可以用于区分不同的数据类别或者表示不同的数值范围。这使得气泡图在数据聚类和分类分析中非常有用,可以帮助我们识别出不同群组或类别之间的差异和相似性。
  • 比较分析:用于比较不同类别或不同时间点的数据。通过气泡的大小和颜色,我们可以直观地比较多个变量的值,快速识别出具有较大或较小数值的数据点,从而帮助我们理解数据的分布和变化情况。
  • 异常值检测:帮助我们快速识别出具有异常数值的数据点。通过比较气泡的大小和颜色,我们可以发现与其他数据点相比具有明显不同数值的数据,从而帮助我们识别和分析异常情况。

3. 不适用的场景

气泡图在以下情况可能不适用:

  • 大数据集:当数据集非常庞大时,气泡图可能不适合展示所有数据点,因为过多的气泡可能会导致图表混乱不清。
  • 单变量分析:如果只需要分析单个变量的分布或趋势,气泡图可能过于复杂,不是最佳选择。
  • 离散数据:如果数据是离散的,而不是连续的数值型数据,气泡图可能无法有效地展示变量之间的关系。

4. 分析实战

本次使用气泡图分析 2021年中欧之间的贸易数据情况。
气泡图可以分析三个维度的对比:

  1. 进口额:横轴
  2. 出口额:纵轴
  3. 进出口总额:气泡大小

4.1. 数据来源

数据来源国家统计局公开的数据,整理好的数据可从下面的地址下载:
https://databook.top/nation/A06

用到的三个统计数据分别是:

  1. 中国同欧洲各国(地区)进出口总额:A06050103.csv
  2. 中国向欧洲各国(地区)出口总额:A06050203.csv
  3. 中国从欧洲各国(地区)进口总额:A06050303.csv
fp = "d:/share/data/A06050103.csv"
df_total = pd.read_csv(fp)

fp = "d:/share/data/A06050203.csv"
df_output = pd.read_csv(fp)

fp = "d:/share/data/A06050303.csv"
df_input = pd.read_csv(fp)

4.2. 数据清理

数据清理步骤主要包括:

  1. 提取每个文件中2021年的数据
  2. 去除中欧整体的交易额数据,只保留和各个国家之间的贸易数据
  3. 合并进出口总额,进口额,出口额到一个数据集中
  4. 过滤多余字符,生成一个表示国家的数据列
#提取每个文件中2021年的数据
df = df_total[df_total["sj"] == 2021]

#去除中欧整体的交易额数据,只保留和各个国家之间的贸易数据
data = df.loc[2:, ["zbCN", "value"]]
#重新映射列的名称
data = data.rename(columns={"zbCN":"country", "value": "total"})

#过滤多余字符,生成一个表示国家的数据列
data["country"] = data["country"].str.replace("中国同", "", regex=False)
data["country"] = data["country"].str.replace("进出口总额(万美元)", "", regex=False)

df = df_input[df_input["sj"] == 2021]
#合并进出口总额,进口额,出口额到一个数据集中
data["input"] = df.loc[2:, ["value"]]

df = df_output[df_output["sj"] == 2021]
#合并进出口总额,进口额,出口额到一个数据集中
data["output"] = df.loc[2:, ["value"]]

data.head(5)

image.png

和欧洲的总体交易数据位于每个数据集的第一行,所用用 loc[2:, ...] 来过滤。

4.3. 分析结果可视化

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])

    ax.scatter(
        data["input"] / 10000,
        data["output"] / 10000,
        data["total"] / 10000,
        c = np.random.rand(len(data)),
        cmap="Accent",
        alpha=0.6,
    )
    ax.set_xlabel("进口额(亿元)")
    ax.set_ylabel("出口额(亿元)")

    x = np.linspace(0, 1400, 7)
    y = x
    ax.plot(x, y, '-')

image.png

从图中可以看出:
横轴是进口额,纵轴是出口额,气泡越大,进出口总额越大。

中间的蓝色线表示进出口额度一样,可以看出,大部分国家都在蓝色线之上,
说明我国和大部分欧洲的贸易都是顺差

左下角有很多小气泡,说明和大部分国家之间的进出口贸易额不高,也许是欧洲的小国家很多的缘故。

标签:变量,--,data,matplotlib,df,csv,数据,气泡
From: https://www.cnblogs.com/wang_yb/p/17776263.html

相关文章

  • dremio hive 连接
    dremio对于hive的连接实际上有两种方法,一种使用的是hive的metastore,一种是使用的hivejdbcserver第一中是官方支持的,第二种官方缺少直接的支持,需要自己开发相关的arp扩展一些参考实现cdata目前提供了一个开源实现,但是jdbc驱动使用的是自己的,实际上这个我们可以调整为h......
  • 20231018 NOIP 模拟赛
    时间安排7:50~8:00看题,只会A。8:00~8:10写完A。8:10~9:00推式子+写40pts,少乘了一个\(n-i+1\)调了半天。9:00~9:01看了一眼C的式子,猜一手结论。9:01~10:21觉得可以换根,写个暴力\(dp\)。10:09会了50pts,换下根就行了,10:21调出来了。10:21~10:50给B和C加......
  • 让AutoMapper使用变得简单
     倘若在项目中真正要用的时候,我觉得还是应该对AutoMapper的方法进行一些整理,最好能够封装一下,这里我通过扩展方法的形式将其封装为AutoMapperHelper,这样以后使用AutoMapper就变的SOEASY了~ usingSystem.Collections;usingSystem.Collections.Generic;usingSystem.Data......
  • Ubuntu 安装MySql
    1.安装sudoaptinstallmysql-serversudoaptinstallmysql-cient启动服务:windows启动:netstartmysql服务名停止:netstopmysql服务名mac启动:mysql.serverstart停止:mysql.serverstoplinux:关闭mysql服务:servicemysqlstop启动mysql服务:servicemysql......
  • Paper Reading: Sample and feature selecting based ensemble learning for imbalanc
    目录研究动机文章贡献本文方法基于聚类的分层随机欠采样特征选择样本和特征选择的集成学习基于随机森林的SFSHEL实验结果数据集和实验设置KEEL数据集的比较HeartFailure数据集的比较优点和创新点PaperReading是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限......
  • 公务员与事业编的区别
    公务员依法履行公职,是国家法律的执行者,工资由政府发,是行政编制。事业单位是指国家为了社会公益目的,由国家机关主办或者其他组织利用国有资产举办的从事教育、科技、文化、卫生等活动的社会服务组织,是事业编制。事业编分为全额拨款事业单位、差额拨款事业单位、自收自支事业单位......
  • C#调用数据库数据时,突然显示表名无效
    问题描述问题解决调用表时,前面加上数据库名和类似于dbo的那个东西就行啦!解决啦:......
  • 11、Linux文件与目录权限
    Linux文件与目录权限目录Linux文件与目录权限一、Linux文件基本属性1、文件介绍2、Linux文件属主和属组二、更改文件属性1、chmod命令2、chown命令3、chgrp命令4、chattr命令5、lsattr命令三、其他1、权限掩码2、特殊权限①SBIT(粘滞位)②SUID(属主特殊权限)③SGID(属组特殊权限)3、fi......
  • Mesa 23.2 带来了 Asahi 平台上的 OpenGL 3.1 和 OpenGL ES 3.0 支持,新增 RADV 功能
    导读这个版本还为RADV驱动器引入了新的Vulkan扩展以及为许多游戏进行了改进。Mesa23.2开源图形堆栈是Mesa23系列的第二个主要版本,为AMDGPU的RADVVulkan驱动器、改进的 Linux 游戏以及新的Asahi功能带来了新功能。Mesa23.2的亮点包括Asahi平台上......
  • 实验1
    task11//标准库string,vector,array基础用法2#include<iostream>3#include<string>4#include<vector>5#include<array>6//函数模板7//对满足特定条件的序列类型T对象,使用范围for输出8template<typenameT>9voidoutput1(constT&o......