【matplotlib 实战】--散点图

时间：2023-10-18 10:36:05浏览次数：39

散点图，又名点图、散布图、X-Y图，是将所有的数据以点的形式展现在平面直角坐标系上的统计图表。

散点图常被用于分析变量之间的相关性。
如果两个变量的散点看上去都在一条直线附近波动，则称变量之间是线性相关的；
如果所有点看上去都在某条曲线（非直线）附近波动，则称此相关为非线形相关的；
如果所有点在图中没有显示任何关系，则称变量间是不相关的。

散点图一般需要两个不同变量，一个沿x轴绘制，另一个沿y轴绘制。
众多的散点叠加后，有助于展示数据集的“整体景观”，从而帮助我们分析两个变量之间的相关性，或找出趋势和规律。

1. 主要元素

散点图的主要元素包括：

横轴：表示自变量。
纵轴：表示因变量。
数据点：每个数据点代表一个观测值，它在坐标轴上的位置表示两个变量的对应取值。
趋势线：趋势线是通过数据点拟合出的一条线，用于显示变量之间的趋势或关联性。

图片来自 antv 官网

2. 适用的场景

散点图适用的分析场景包括：

变量关系探索：帮助我们观察和理解两个变量之间的关系。通过观察数据点的分布情况和趋势线的形状，可以判断变量之间是否存在线性关系、非线性关系或无关系。
趋势分析：用于分析趋势和预测。通过观察趋势线的方向和斜率进行预测。
群体分析：散点图可以帮助我们观察和识别数据点的聚类情况。
异常值检测：散点图可以用于检测异常值或离群点。

3. 不适用的场景

散点图不适用的分析场景包括：

时间序列分析：散点图主要用于展示两个变量之间的关系，对于时间序列数据，通常使用折线图或其他适合展示时间变化的图表类型。
多变量分析：散点图只能展示两个变量之间的关系，对于多个变量之间的关系分析，需要使用其他图表类型，如散点矩阵、平行坐标图等。
分布分析：散点图主要关注变量之间的关系，而不是变量本身的分布情况。如果需要分析变量的分布特征，可以使用直方图、箱线图等图表类型。

4. 分析实战

散点图适合寻找两个变量之间的关系，本次分析 **空气污染 **方面的数据情况。

4.1. 数据来源

数据来源国家统计局公开的数据。
用到的两个统计数据分别是：

工业污染治理中，每年治理废气的投资额
废气中二氧化硫的每年排放量情况

整理好的数据可从下面的地址下载：
https://databook.top/nation/A0C
A0C05.csv（废气中主要污染物排放）和 A0C0I.csv（工业污染治理投资）两个文件。

fp = "d:/share/data/A0C05.csv"

df1 = pd.read_csv(fp)
df1

fp = "d:/share/data/A0C0I.csv"

df2 = pd.read_csv(fp)
df2

4.2. 数据清理

2022年数据是空的，所以从两个文件中分别提取 2012~2021年期间，汇总所有废气排放量(万吨)和**治理废气项目完成投资(万元) **两类数据绘制图形。

#所有废气的排放量
data_x = df1[(df1["sj"] >= 2012) &
            (df1["sj"] <= 2021)]
data_x = data_x.loc[:, ["sj", "value"]]
data_x = data_x.groupby("sj").sum("value")

#治理废气项目投资 A0C0I03是治理废气投资的编号
data_y = df2[(df2["sj"] >= 2012) &
            (df2["sj"] <= 2021) &
            (df2["zb"] == "A0C0I03")]
data_y = data_y.sort_index(ascending=False)

4.3. 分析结果可视化

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.6, 0.6])

    ax.scatter(data_x["value"], data_y["value"]/10000)
    ax.set_xlabel("废气排放量(万吨)")
    ax.set_ylabel("治理废气项目完成投资(亿元)")

从分析结果图中来看，排放的废气量越大的时候，治理的投资费用也越高。

但是右下角红色框内有一个异常值，那个是2012年的数据。
估计那时候还不太重视环保，所以即使那时候废气排放量大，用于治理废气的投资费用也不高。

标签：分析,变量,--,废气,散点图,matplotlib,csv,数据
From： https://www.cnblogs.com/wang_yb/p/17771471.html

角度与弧度的互换
弧度的引入所以在日常生活中，角度比较容易使用，但在数学中，弧度就比较合适。什么是弧度？角度与弧度的基本关系式为只要记住平角是π就行，一定要记住，答应我，你一定要记住平角就是π！180°=π，360°=2π四个象限角度与弧度的转换：90度=$\frac{π}{2}$，180°=π，270°......
PHP微信墙制作，开源
注意：由于微信官网不定时会更新，其中模拟登陆以及爬取数据的方式可能会失效，最近这12个月里，就有两次更新导致此功能需要重写。服务端源码->github地址传送门思路其实实现思路就是通过模拟登陆的方式登录到微信平台，然后通过正则表达式获取指定的内容放到数据库里面，同时这个操作要......
Eureka注册中心
Eureka的作用消费者该如何获取服务提供者具体信息？服务提供者启动时向eureka注册自己的信息eureka保存这些信息消费者根据服务名称向eureka拉取提供者信息如果有多个服务提供者，消费者该如何选择？服务消费者利用负载均衡算法，从服务列表中挑选一个消费者如何感知......
linux centos7安装配置java环境
1.先查看本地是否自带java环境：yumlistinstalled|grepjava2.卸载自带的java（输入su，输入root超级管理员的密码，切换到root用户模式）yum-yremovejava-1.8.0-openjdk*yum-yremovetzdata-java*3.查看yum仓库中的java安装包yum-ylistjava*4.安装java：yum-yi......
解决 ubuntu snap 安装软件下载速度太慢的问题
最近升级到ubuntu20.04之后，大量的软件都已经通过snap方式安装了，但是由于国内没有镜像服务器，导致下载速度很慢，解决方式如下：$ sudo apt-get install snapd $ sudo snap install snap-store $ sudo snap install snap-store-proxy $ sudo snap install sn......
chatgpt汇总 - 聚合GPT【即时更新】
自荐下由我开发的聚合GPT网站，这边的GPT镜像站均为免费、无登录、无次数限制的！会及时剔除失效、添加可用地址【欢迎STAR、PR】地址：https://ele-cat.gitee.io/comp-gpt/PC端：移动端： ......
【数据结构】7.平衡搜索树（AVL树和红黑树）
0.概述对于普通的搜索树，如果一直插入比第一个元素小的元素，它会退化成一个无限向左下角眼神的单链表，使得时间复杂度退化为O(n)。如果我们在插入时保持树的结构是平衡的，则可以保证查找、插入和删除的时间复杂度有对数级的时间性能，下面讲到的AVL树和红黑树都是平衡搜索树，通过旋......
laravel artisan命令大全
来源：http://www.shanhubei.com/archives/2817.html1.选项：命令中文-h,--help显示给定命令的帮助。当没有给出命令时显示列表命令的帮助-q,--quiet不输出任何消息-v,--version显示此应用程序版本--ansi|--no-ansi强制（或禁用--no-ansi）ANSI输出 -n,......
JAVA爬虫被封IP问题的解决方法
以下是JAVA爬虫被封IP问题的解决方法：解决Java爬虫被封IP问题随着网络技术的发展，Java爬虫在网络应用中越来越普遍，然而在爬取数据的过程中，经常会遇到IP被封的问题。以下是几种常见的解决方法：1.使用代理IP代理IP可以隐藏爬虫的真实IP地址，从而提高爬虫的隐蔽性，减少被封IP的风险。可以......
低水平特征（low-level）高水平特征（high-level），傅里叶光谱高频低频
图像的频率：灰度值变化剧烈程度的指标，是灰度在平面空间上的梯度。（1）什么是低频?低频就是颜色缓慢地变化,也就是灰度缓慢地变化,就代表着那是连续渐变的一块区域,这部分就是低频.对于一幅图像来说，也就是边缘以内的内容为低频，而边缘内的内容就是图像的大部分信息，即图像的大致概貌和......