思维导图
参考文章
对比
柱状图
柱状图的一个轴表示分类维度,另外一个轴表示对应的数据,它的核心功能就是对比。
基础柱状图
改进:展示多维数据,采用更进阶的柱状图
竖向
缺点:分类类型太多、文本比较长时,可能会导致文本重叠
改进:分类类型比较多,采用横向柱状图
横向(条形图)
基本原则:排序展示
分组柱状图
用途:在一个轴上显示了各个分类下的不同分组,不适合分组过多的情况,这样对比就很难看出,一般分组在四个以下
同样,分类较多时可采用横向的
堆叠柱状图
同样的,分类过多时可以采用横向的。
数值堆叠柱状图
数值堆叠柱状图和分组柱状图都可以展示不同分类下的不同分组的数值,但是分组柱状图是并排展示,而堆叠柱状图是竖向的堆叠。它可以形象地展示一个分类包括的分组数据,更重要的是可以看出分组的占比。
缺点:如果一个分类的分组太多,很难在不同分类对比相同分组的数值大小,因为它们的基准线不同。
改进:对比不同分类下相同分组的数据,可以使用百分比堆叠柱状图
百分比堆叠柱状图
每一类下不同分组的数据不是数值,而是该分组占该类的百分比,每一类都分组数值的总和都是百分百,这样就可以看出在同一个分类里面不同分组的占比。
双向柱状图
主要适合有正反数据的场景
图表类型 | 双向柱状图 |
---|---|
适合的数据 | 列表:一个分类数据字段、两个连续数据字段 |
功能 | 对比分类数据的数值大小 |
数据与图形的映射 | 分类数据字段映射到分类轴的位置 一个连续数据字段映射到正向矩形的长度、另一个连续数据字段映射到反向矩形的长度 、正反向数据可以设置颜色或形状(shape)增强区分度、分类数据可以设置颜色增强分类的区分度 |
适合的数据条数 | 横向不超过 30 条数据、纵向不超过 12 条数据 |
雷达图
雷达图常用于表达多维数据,适合于展示性能数据
但是维数越多,多边形的边数就越多,图像就会比较混乱,一般控制在4~7维即可
玉玦图
又叫环形柱状图,是柱状图从笛卡尔坐标系转到极坐标系的变换,用角度来代表每一个环数值的大小
缺点:半径反馈效应,角度相同时,外侧的圆环会比内侧的圆环大,但是本来它们两个的数值是相同的,也就是会造成视觉上的误解
原则:排序展示,数值小的在内侧,数值大的在外侧
一个完整的玉玦图包含以下构成元素:
- 玦环:角度表示数值
- 文本:数值、分类名
以下这两个图都不是很好,第一个是为了说明玉玦图的概念,但是它没有排序展示,第二个的分类名应该在左侧,而不是被玦环遮挡
南丁格尔玫瑰图
概念和特点:
-
用半径来反映数值(而饼图是以扇形的弧度来表示数据的)。
-
但是,由于半径和面积之间是平方的关系,视觉上,南丁格尔玫瑰图会将数据的比例夸大。
-
因此,当我们追求数据的准确性时,玫瑰图不一定是个好的选择。但反过来说,当我们需要对比非常相近的数值时,适当的夸大会有助于分辨。
缺点:不适合分类过少的场景(比如2类),而且如果有的分类数值特别小,与其他分类数值差异过于悬殊,会导致该类在图上的面积过小,根本看不见
词云
通常用于描述关键词数据,每个词的重要性以字体大小或颜色展示
词云的本质是点图是在对应坐标点绘制具有特定样式文字的结果
趋势
折线图
一般水平轴为时间推移,垂直轴为数据大小,展示数据随时间的变化趋势
适用场景:
- 同一变量随时间或有序类别的变化
- 多个随时间或有序类别变化的变量对比
不适用场景:
- x轴节点过多
- 数据样本过多,导致折线堆积,难以聚焦到重点
- 变量数值大多情况下在0
回归曲线图
用于预测
组成元素
- 点
- 回归方程
- 曲线
面积图
基础面积图
在折线图的基础上形成的,将折线图中折线与自变量坐标轴之间的区域填充就成了面积图,填充颜色需要带一定的透明度,不然可能会互相遮盖减少被观察到的信息。
优点:比折线图表现力更强
缺点:多系列数据比较时,填充会导致折线被覆盖,难以辨别
改进:有多系列数据时,可以使用堆叠面积图
堆叠面积图
-
概念:有多个数据系列,它们一层层的堆叠起来,每个数据系列的起始点是上一个数据系列的结束点。
-
优点:堆叠面积图适合观察几个数据系列随时间的变化情况,既能看到各数据系列的走势,也能够强调不同系列的数据间的差距对比。
-
缺点:过多的系列,也会导致难以分辨。
-
与堆叠柱状图的区别:当数据没有时间上的关联时,须使用堆叠柱状图。
-
示例解释:A厂的y值保持不变,B厂的y值=B厂原来的y值+相同x坐标的A厂的y值,C厂的y值=C厂原来的y值+相同坐标的B厂的y值,其实C厂的y值就是A、B、C三个厂原来的y值的总和
分布
直方图
外形和柱状图相似,但与柱状图完全不同
横轴:横轴是某连续数据的分组
纵轴:该分组的频数
作用:可以表示数据在各个组段间的频数分布,也可以观察孤立数据
与柱状图区别:柱状图的横轴是离散的,代表的是类别,用于对比
注意点:组距的大小
散点图
散点图将所有数据以点的形式展现在直角坐标系上,已显示变量之间的分布情况,从而帮助我们分析两个变量之间的相关性,或找出趋势和规律。
适用情形:
- 分析变量之间是否存在某种关系或相关性
- 分析变量之间相关性的强弱,我们可以通过查看图上数据点的密度来确定相关性的强弱。
- 在不考虑时间的情况下比较大量的数据点,数据点越多,比较的效果就越明显。
不适用情形:
-
对于数据量较少的数据集不建议使用,分析结果会存在较大的偶然性
-
数据分类过多,无法快速识别,失去可视化的意义和价值。
-
不适用于数据点过大、过多的情况,会影响图表的可读性,导致无法进行分析。
改进:六边形分箱图
六边形分箱图
出现原因:解决数据集过大,散点图中数据点堆叠和互相覆盖,难以分析的问题
相对于散点图的改进:引入了“密度”的概念,即以特定的区域为单位,统计出这个区域里散点出现的频数,然后借鉴热力图,用颜色代表频数的高低。六边形接近圆,这样可以更有效的围绕着图形中心聚合数据。此外,六边形也方便衔接,排列起来也非常美观。
适用场景:适用于大规模的数据集,可以将散点聚合起来,更好的反映数据的聚集情况、发现变量之间的关系。
注意点:正如直方图需要确定组距的大小,绘制六边形分箱图时,也需要确定六边形的大小。六边形越大,相当于精度越低。不同的大小,也可能带来不同的结论,因此建议多次尝试。
气泡图
可以表示3~4维的数据
在散点图的基础上,以气泡大小增加了一个维度的信息的表达,如果再加上了颜色,就又多了一个维度
气泡的大小是映射到面积
图表类型 | 气泡图 |
---|---|
适合的数据 | 三个连续字段,一个分类字段 |
功能 | 观察数据的分布 情况 对比 各个分类字段对应的数值大小 |
数据与图形的映射 | 两个连续字段分别映射到横轴和纵轴 第三个连续字段映射到气泡大小 分类字段映射到颜色。 |
适合的数据条数 | 暂无限制 |
热力图
热力图是两个字段分别映射到X、Y轴,第三个连续字段映射到颜色
适合用于查看总体的情况、发现异常值、显示多个变量之间的差异,以及检测它们之间是否存在任何相关性。
相关性分析时常用,X轴和Y轴相同,都是类别,颜色表示两个类别间的相关性,并标出数值
可以和地图结合在一起展现
箱线图
用途:能显示出一组数据的最大值、最小值、中位数及上下四分位数。
适用于展示单组数据的分布概况(只有一个箱线的情况)或多组数据间的分布对比(多个箱线的情况)。
通过箱形图,我们可以很快知道一些关键的统计值,如中位数、上下四分位数等;也可以分析是否存在离群值、离群值分别是多少;整体来看,还可以检验数据是否对称、是否有偏向性,如果有,它偏向于哪一边;最后,我们还可以用多个箱型图,比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。
多个箱线图可以观察多组数据的分布情况
联系
弧长链接图
一维布局的节点链接图,节点环状排列,用圆弧连接节点表示关系
图表类型 | 弧长链接图 |
---|---|
适合的数据 | 列表:一组节点数据(包含节点 id 字段)、一组链接数据(包含源节点字段和目标节点字段) |
功能 | 表示数据之间的链接关系 |
数据与图形的映射 | 节点的坐标(自动计算)字段映射到节点的坐标轴的位置,链接的坐标(自动计算)映射到圆弧的顶点坐标轴位置。节点中的分类数据也可以设置颜色增强区分度 |
适合的数据条数 | 不少于 2 条数据 |
线性弧长链接图
环形弧长链接图
弦图
组成:弦图由节点分段和弧形的边构成。节点分段沿圆周排列,节点之间的关系通过使用弧线或贝塞尔曲线相互连接。值得注意的是,这些弧线是有宽度的,且起止宽度可以不一样。
用途:它可以在“多类别+复杂关系”的情况下,有效降低视觉复杂度。就场景而言,弦图最常被用来表现复杂的关系、以及数据的流动情况等。
桑基图
桑基图主要描述一组数值到另外一组数值的流向,它的起始流量应该和结束流量是相同的
它内部有不同的线条,表示不同的分流情况,宽度会展现这条分流占有的流量
它对比上面的弦图,桑基图是可以表达多级关系,但和弦图是不分层级的
图表类型 | 桑基图 |
---|---|
适合的数据 | 节点数据集(可选),边数据集 |
功能 | 观察节点关系 |
数据与图形的映射 | 权重映射到节点和边的宽度 |
适合的数据条数 | 10 条以上 |
表示层级关系
韦恩图
通过图像之间的层叠关系,表达集合与集合质监局的相交关系
缺点:超过五个集合的场景,不适合用韦恩图
例子:表示4个集合相交关系
- 场景说明:有一个集合A、B、C、D。
- 数据说明:2个维度数据,分类数据映射集合名,关系数据映射集合关系。
网络图
绘制工具:gephi
使用节点/顶点和连接线来显示事物之间的连接关系,并帮助阐明一组实体之间的关系类型。线条的宽度和节点的大小都可以有意义
构成/占比
饼状图
饼图
饼图最显著的功能在于表现“占比”,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例
要注意的点:分类不宜太多,分类太多每个切片会变小最后导致大小区分不明显。注意扇形的排布顺序,一般情况下,将最大的扇形放在12点钟,接下来按面积依次排列
环图
环图的本质是把饼图中间挖空,它使我们更关注弧长而不是面积
图表类型 | 环图 |
---|---|
适合的数据 | 列表:一个分类数据字段、一个连续数据字段 |
功能 | 对比分类数据的数值大小 |
数据与图形的映射 | 分类数据字段映射到环形的颜色 连续数据字段映射到环形的角度 |
适合的数据条数 | 不超过9条数据 |
堆叠柱状图
见“对比-柱状图”部分
堆叠面积图
见“趋势”部分
地图
点分布地图主要用于显示某个经纬度上的点的数据,而分级统计地图用于显示某个区域的统计值
点分布地图
点描法地图
可以观察数据在地理位置上的分布情况
图表类型 | 点描法地图 |
---|---|
适合的数据 | 两个连续字段 |
功能 | 观测数据的分布 情况 |
数据与图形的映射 | 两个连续字段分别映射到经度和纬度 |
适合的数据条数 | 大于 100 条 |
备注 | 可根据实际情况对点的形状 进行分类字段的映射。点的颜色 进行分类或连续字段的映射。 |
气泡地图
在点描法的基础上,增加一个维度,把数据大小用气泡面积表达出来,除了可以看数据的分布情况,还可以进行数据对比
图表类型 | 带气泡的地图 |
---|---|
适合的数据 | 一个分类字段,一个连续字段 |
功能 | 对比 分类数据的数值大小 |
数据与图形的映射 | 一个分类字段映射到地图的地理位置和 气泡颜色 另一个连续字段映射到气泡大小 |
适合的数据条数 | 根据实际地理位置信息,暂无限制 |
缺点:
当数值字段表达的不是一个区域的总值,而仅仅是个取样值(气温、降水等)时不适合使用带气泡的地图
不适合的原因:
- 气泡相互折叠
- 气温是一个采样数值,有连续性
- 数值的变化不大,导致气泡的大小变化不大,无法明确的对比数值的大小
此时更适合热力图
分级统计地图
将地图分区,然后用视觉符号如颜色、阴影来表示一个范围值的分布情况。
分级统计地图较多的是反映呈面状但属分散分布的现象
图表类型 | 分级统计图 |
---|---|
适合的数据 | 一个分类字段,一个连续字段 |
功能 | 对比 分类数据的数值大小 |
数据与图形的映射 | 一个分类字段映射到地图的地理位置 另一个连续字段映射到颜色 |
适合的数据条数 | 根据实际地理位置信息,暂无限制 |
缺点:分级统计地图经常会带来误判,面积大的区域可能数值(人口数、选举人票等)比较小
改进:采用点分布地图
标签:选择,映射,分类,数值,图表,柱状图,概述,堆叠,数据 From: https://www.cnblogs.com/zhengzirui/p/18001673