首页 > 其他分享 >图表概述与选择

图表概述与选择

时间:2024-02-01 17:25:25浏览次数:19  
标签:选择 映射 分类 数值 图表 柱状图 概述 堆叠 数据

思维导图

图表选择 (2)

参考文章

图之典

antV图表用法

对比

柱状图

柱状图的一个轴表示分类维度,另外一个轴表示对应的数据,它的核心功能就是对比。

基础柱状图

改进:展示多维数据,采用更进阶的柱状图

竖向

缺点:分类类型太多、文本比较长时,可能会导致文本重叠

改进:分类类型比较多,采用横向柱状图

img

横向(条形图)

基本原则:排序展示

image-20240131174007834

分组柱状图

用途:在一个轴上显示了各个分类下的不同分组,不适合分组过多的情况,这样对比就很难看出,一般分组在四个以下

image-20240131174519976

同样,分类较多时可采用横向的

image-20240131174726281

堆叠柱状图

同样的,分类过多时可以采用横向的。

数值堆叠柱状图

数值堆叠柱状图和分组柱状图都可以展示不同分类下的不同分组的数值,但是分组柱状图是并排展示,而堆叠柱状图是竖向的堆叠。它可以形象地展示一个分类包括的分组数据,更重要的是可以看出分组的占比。

缺点:如果一个分类的分组太多,很难在不同分类对比相同分组的数值大小,因为它们的基准线不同。

改进:对比不同分类下相同分组的数据,可以使用百分比堆叠柱状图

img

image-20240201165145548

百分比堆叠柱状图

每一类下不同分组的数据不是数值,而是该分组占该类的百分比,每一类都分组数值的总和都是百分百,这样就可以看出在同一个分类里面不同分组的占比。

img

双向柱状图

主要适合有正反数据的场景

图表类型 双向柱状图
适合的数据 列表:一个分类数据字段、两个连续数据字段
功能 对比分类数据的数值大小
数据与图形的映射 分类数据字段映射到分类轴的位置 一个连续数据字段映射到正向矩形的长度、另一个连续数据字段映射到反向矩形的长度 、正反向数据可以设置颜色或形状(shape)增强区分度、分类数据可以设置颜色增强分类的区分度
适合的数据条数 横向不超过 30 条数据、纵向不超过 12 条数据

img

雷达图

雷达图常用于表达多维数据,适合于展示性能数据

但是维数越多,多边形的边数就越多,图像就会比较混乱,一般控制在4~7维即可

img

玉玦图

又叫环形柱状图,是柱状图从笛卡尔坐标系转到极坐标系的变换,用角度来代表每一个环数值的大小

缺点:半径反馈效应,角度相同时,外侧的圆环会比内侧的圆环大,但是本来它们两个的数值是相同的,也就是会造成视觉上的误解

原则:排序展示,数值小的在内侧,数值大的在外侧

一个完整的玉玦图包含以下构成元素:

  • 玦环:角度表示数值
  • 文本:数值、分类名

以下这两个图都不是很好,第一个是为了说明玉玦图的概念,但是它没有排序展示,第二个的分类名应该在左侧,而不是被玦环遮挡

img

image-20240201134729686

南丁格尔玫瑰图

概念和特点:

  • 尽管外形很像饼图,但本质上来说,南丁格尔玫瑰图更像在极坐标下绘制的柱状图堆叠柱状图

  • 用半径来反映数值(而饼图是以扇形的弧度来表示数据的)。

  • 但是,由于半径和面积之间是平方的关系,视觉上,南丁格尔玫瑰图会将数据的比例夸大。

  • 因此,当我们追求数据的准确性时,玫瑰图不一定是个好的选择。但反过来说,当我们需要对比非常相近的数值时,适当的夸大会有助于分辨。

缺点:不适合分类过少的场景(比如2类),而且如果有的分类数值特别小,与其他分类数值差异过于悬殊,会导致该类在图上的面积过小,根本看不见

img

词云

通常用于描述关键词数据,每个词的重要性以字体大小或颜色展示

词云的本质是点图是在对应坐标点绘制具有特定样式文字的结果

image-20240201135743947

趋势

折线图

一般水平轴为时间推移,垂直轴为数据大小,展示数据随时间的变化趋势

参考文章

适用场景:

  1. 同一变量随时间或有序类别的变化
  2. 多个随时间或有序类别变化的变量对比

不适用场景:

  1. x轴节点过多
  2. 数据样本过多,导致折线堆积,难以聚焦到重点
  3. 变量数值大多情况下在0

img

回归曲线图

用于预测

组成元素

  1. 回归方程
  2. 曲线

35699d615097d4088da11ea7c5b24840_8_Figure_2_578838564

面积图

基础面积图

在折线图的基础上形成的,将折线图中折线与自变量坐标轴之间的区域填充就成了面积图,填充颜色需要带一定的透明度,不然可能会互相遮盖减少被观察到的信息。

优点:比折线图表现力更强

缺点:多系列数据比较时,填充会导致折线被覆盖,难以辨别

改进:有多系列数据时,可以使用堆叠面积图

img

堆叠面积图

  1. 概念:有多个数据系列,它们一层层的堆叠起来,每个数据系列的起始点是上一个数据系列的结束点。

  2. 优点:堆叠面积图适合观察几个数据系列随时间的变化情况,既能看到各数据系列的走势,也能够强调不同系列的数据间的差距对比。

  3. 缺点:过多的系列,也会导致难以分辨。

  4. 与堆叠柱状图的区别:当数据没有时间上的关联时,须使用堆叠柱状图

  5. 示例解释:A厂的y值保持不变,B厂的y值=B厂原来的y值+相同x坐标的A厂的y值,C厂的y值=C厂原来的y值+相同坐标的B厂的y值,其实C厂的y值就是A、B、C三个厂原来的y值的总和

img

分布

直方图

外形和柱状图相似,但与柱状图完全不同

横轴:横轴是某连续数据的分组

纵轴:该分组的频数

作用:可以表示数据在各个组段间的频数分布,也可以观察孤立数据

与柱状图区别:柱状图的横轴是离散的,代表的是类别,用于对比

注意点:组距的大小

img

散点图

参考文章

散点图将所有数据以点的形式展现在直角坐标系上,已显示变量之间的分布情况,从而帮助我们分析两个变量之间的相关性,或找出趋势和规律。

适用情形:

  1. 分析变量之间是否存在某种关系或相关性
  2. 分析变量之间相关性的强弱,我们可以通过查看图上数据点的密度来确定相关性的强弱。
  3. 在不考虑时间的情况下比较大量的数据点,数据点越多,比较的效果就越明显。

不适用情形:

  1. 对于数据量较少的数据集不建议使用,分析结果会存在较大的偶然性

  2. 数据分类过多,无法快速识别,失去可视化的意义和价值。

  3. 不适用于数据点过大、过多的情况,会影响图表的可读性,导致无法进行分析。

    改进:六边形分箱图

img

六边形分箱图

参考文章

出现原因:解决数据集过大,散点图中数据点堆叠和互相覆盖,难以分析的问题

相对于散点图的改进:引入了“密度”的概念,即以特定的区域为单位,统计出这个区域里散点出现的频数,然后借鉴热力图,用颜色代表频数的高低。六边形接近圆,这样可以更有效的围绕着图形中心聚合数据。此外,六边形也方便衔接,排列起来也非常美观。

适用场景:适用于大规模的数据集,可以将散点聚合起来,更好的反映数据的聚集情况、发现变量之间的关系。

注意点:正如直方图需要确定组距的大小,绘制六边形分箱图时,也需要确定六边形的大小。六边形越大,相当于精度越低。不同的大小,也可能带来不同的结论,因此建议多次尝试。

img

气泡图

参考文章

可以表示3~4维的数据

在散点图的基础上,以气泡大小增加了一个维度的信息的表达,如果再加上了颜色,就又多了一个维度

气泡的大小是映射到面积

图表类型 气泡图
适合的数据 三个连续字段,一个分类字段
功能 观察数据的分布情况 对比各个分类字段对应的数值大小
数据与图形的映射 两个连续字段分别映射到横轴和纵轴 第三个连续字段映射到气泡大小 分类字段映射到颜色。
适合的数据条数 暂无限制

img

img

热力图

热力图是两个字段分别映射到X、Y轴,第三个连续字段映射到颜色

适合用于查看总体的情况、发现异常值、显示多个变量之间的差异,以及检测它们之间是否存在任何相关性。

img

相关性分析时常用,X轴和Y轴相同,都是类别,颜色表示两个类别间的相关性,并标出数值

894bcdd518378f6ea7d27e0259d4cc45_11_Figure_8_-634828067

可以和地图结合在一起展现

image-20240201154532215

箱线图

参考文章

用途:能显示出一组数据的最大值、最小值、中位数及上下四分位数。

适用于展示单组数据的分布概况(只有一个箱线的情况)或多组数据间的分布对比(多个箱线的情况)。

通过箱形图,我们可以很快知道一些关键的统计值,如中位数、上下四分位数等;也可以分析是否存在离群值、离群值分别是多少;整体来看,还可以检验数据是否对称、是否有偏向性,如果有,它偏向于哪一边;最后,我们还可以用多个箱型图,比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。

img

多个箱线图可以观察多组数据的分布情况

img

联系

弧长链接图

参考文章

一维布局的节点链接图,节点环状排列,用圆弧连接节点表示关系

图表类型 弧长链接图
适合的数据 列表:一组节点数据(包含节点 id 字段)、一组链接数据(包含源节点字段和目标节点字段)
功能 表示数据之间的链接关系
数据与图形的映射 节点的坐标(自动计算)字段映射到节点的坐标轴的位置,链接的坐标(自动计算)映射到圆弧的顶点坐标轴位置。节点中的分类数据也可以设置颜色增强区分度
适合的数据条数 不少于 2 条数据

线性弧长链接图

image-20240201161407859

环形弧长链接图

image-20240201161257560

弦图

参考文章

组成:弦图由节点分段和弧形的边构成。节点分段沿圆周排列,节点之间的关系通过使用弧线或贝塞尔曲线相互连接。值得注意的是,这些弧线是有宽度的,且起止宽度可以不一样。

用途:它可以在“多类别+复杂关系”的情况下,有效降低视觉复杂度。就场景而言,弦图最常被用来表现复杂的关系、以及数据的流动情况等。

img

桑基图

桑基图主要描述一组数值到另外一组数值的流向,它的起始流量应该和结束流量是相同的
它内部有不同的线条,表示不同的分流情况,宽度会展现这条分流占有的流量
它对比上面的弦图,桑基图是可以表达多级关系,但和弦图是不分层级的

图表类型 桑基图
适合的数据 节点数据集(可选),边数据集
功能 观察节点关系
数据与图形的映射 权重映射到节点和边的宽度
适合的数据条数 10 条以上

img

表示层级关系

image-20240201162227869

韦恩图

通过图像之间的层叠关系,表达集合与集合质监局的相交关系

缺点:超过五个集合的场景,不适合用韦恩图

例子:表示4个集合相交关系

  • 场景说明:有一个集合A、B、C、D。
  • 数据说明:2个维度数据,分类数据映射集合名,关系数据映射集合关系。

img

网络图

绘制工具:gephi

使用节点/顶点和连接线来显示事物之间的连接关系,并帮助阐明一组实体之间的关系类型。线条的宽度和节点的大小都可以有意义

子网络

构成/占比

饼状图

饼图

饼图最显著的功能在于表现“占比”,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例

要注意的点:分类不宜太多,分类太多每个切片会变小最后导致大小区分不明显。注意扇形的排布顺序,一般情况下,将最大的扇形放在12点钟,接下来按面积依次排列

下载

饼图

环图

环图的本质是把饼图中间挖空,它使我们更关注弧长而不是面积

图表类型 环图
适合的数据 列表:一个分类数据字段、一个连续数据字段
功能 对比分类数据的数值大小
数据与图形的映射 分类数据字段映射到环形的颜色 连续数据字段映射到环形的角度
适合的数据条数 不超过9条数据

img

image-20240201164956376

堆叠柱状图

见“对比-柱状图”部分

堆叠面积图

见“趋势”部分

地图

点分布地图主要用于显示某个经纬度上的点的数据,而分级统计地图用于显示某个区域的统计值

点分布地图

点描法地图

可以观察数据在地理位置上的分布情况

图表类型 点描法地图
适合的数据 两个连续字段
功能 观测数据的分布情况
数据与图形的映射 两个连续字段分别映射到经度和纬度
适合的数据条数 大于 100 条
备注 可根据实际情况对点的形状进行分类字段的映射。点的颜色进行分类或连续字段的映射。

img

气泡地图

参考文章

在点描法的基础上,增加一个维度,把数据大小用气泡面积表达出来,除了可以看数据的分布情况,还可以进行数据对比

图表类型 带气泡的地图
适合的数据 一个分类字段,一个连续字段
功能 对比分类数据的数值大小
数据与图形的映射 一个分类字段映射到地图的地理位置气泡颜色 另一个连续字段映射到气泡大小
适合的数据条数 根据实际地理位置信息,暂无限制

img

image-20240201165944486

缺点:

当数值字段表达的不是一个区域的总值,而仅仅是个取样值(气温、降水等)时不适合使用带气泡的地图

image-20240201170124959

不适合的原因:

  • 气泡相互折叠
  • 气温是一个采样数值,有连续性
  • 数值的变化不大,导致气泡的大小变化不大,无法明确的对比数值的大小

此时更适合热力图

image-20240201170114571

分级统计地图

将地图分区,然后用视觉符号如颜色、阴影来表示一个范围值的分布情况。

分级统计地图较多的是反映呈面状但属分散分布的现象

图表类型 分级统计图
适合的数据 一个分类字段,一个连续字段
功能 对比分类数据的数值大小
数据与图形的映射 一个分类字段映射到地图的地理位置 另一个连续字段映射到颜色
适合的数据条数 根据实际地理位置信息,暂无限制

img

缺点:分级统计地图经常会带来误判,面积大的区域可能数值(人口数、选举人票等)比较小

改进:采用点分布地图

image-20240201170423555

标签:选择,映射,分类,数值,图表,柱状图,概述,堆叠,数据
From: https://www.cnblogs.com/zhengzirui/p/18001673

相关文章

  • 如何选择OpenAI的模型
    动机OpenAI的模型比较多,更新也比较频繁,用户不知道如何选择。本文系统地整理了模型,可以快速地选择模型。截止时间本文章的数据,截止到2024年2月1日。模型分类模型名称说明GPT-4GPT-3.5DALL·E文生图TTS生成语音Whisper识别语音EmbeddingsModeration审核内容模型的选择分类需求选择的......
  • 最新大专考试题目搜题软件?如何选择一款适合大学生使用的搜题工具?
    作为当代大学生,我们常常面临着繁重的学业压力和众多的学习任务。在这个信息爆炸的时代,如何高效地进行搜题和学习成了我们迫切需要解决的问题。幸运的是,随着科技的不断进步,我们拥有了许多方便、实用的日常搜题和学习软件。1.百词斩百词斩是针对英语学习开发的一款“图背单词软件”,软......
  • 政府单位如何选择高效的安全数据交换系统?关键看4点
    政府作为我国重要组织单位,数据安全性至关重要,为了保障网络和数据安全,政府内部一般通过物理隔离或逻辑隔离的方式,因此,政府单位进行文件交换具有一定的特殊要求。一般来说,常见的政府内部文件交换工具有以下几种:电子公文传输系统:这是政府内部常用的一种文件交换工具,通过该系统,政府部......
  • [office] Excel旋转图表的两种方法介绍
    Excel的图表本身是不可以旋转放置的,那么怎么可以通过其他方式来实现对图表的旋转呢?下面我向大家介绍二种方法。步骤一:把图表复制为静态图片1、按“shift”键,单击图表区,然后执行“编辑——复制图片”命令,弹出“复制图片”对话框,然后按确定。2、在一个空白的单元格处,点鼠标右键,然后粘......
  • SQL vs NoSQL:系统设计中选择哪个数据库?
    SQLvsNoSQL:系统设计中选择哪个数据库?在设计系统时,您将面临的最关键的系统设计选择之一是选择合适的数据库管理系统(DBMS)。SQL与NoSQL数据库之间的选择可以极大地影响系统的整体性能、可扩展性和通常的成功。这就是为什么我们在系统设计中详细比较了SQL与NoSQL数据库,以帮助您......
  • Rabbit 概述
    RabbitMQ是一个开源的消息代理和队列服务器,用来通过普通协议在完全不同的应用中间共享数据,RabbitMQ是使用Erlang语言来编写的,并且RabbitMQ是基于AMQP协议的。特点:开源、性能优秀Erlang语言最初用在交换机的架构模式,这样使得RabbitMQ在Broker之间进行数据交互的......
  • Mocha MemoryBufferQueue 设计概述
    目录前言MemoryBufferQueue功能概述Buffer模块API设计MemoryBufferQueue的设计Partition的设计对并发的支持Partition的动态扩容Segment的回收机制前言Mocha是一个基于.NET开发的APM系统,同时提供可伸缩的可观测性数据分析和存储平台。更多关于Mocha的介绍,可以参......
  • form 表单提交 保存的时候再提交文件,之前一直是选择文件就传了,这个也比较好
    form表单提交保存的时候再提交文件,之前一直是选择文件就传了,这个也比较好代码<Upload:action="action":max-size="maxSizeMb":format="format":show-upload-list="false"multiple......
  • 传统FTP弊端显现 如何选择FTP替代产品?
    传统的FTP(文件传输协议)虽然在早期广泛使用,但随着网络技术的发展,其局限性逐渐显现,如安全性差、传输效率低等,所以很多企业都在寻找FTP替代产品。FTP的几个弊端具体体现在以下几个方面:1、安全性差:FTP使用明文传输,这意味着数据在传输过程中容易被截获和窃取。FTPS(FTPSecure)虽然提供......
  • 医院如何选择安全合规的内外网文件交换系统?
    医院内外网文件交换系统是专为医疗机构设计的,用于在内部网络(内网)和外部网络(外网)之间安全、高效地传输敏感医疗数据和文件的解决方案。这种系统对于保护患者隐私、遵守医疗数据保护法规以及确保医疗服务的连续性和质量至关重要。医院在选择安全合规的内外网文件交换系统时,应考虑......