箱线图是什么?
箱线图(Box plot),也称为盒须图或盒式图,是一种用于展示数据分布的统计图表。它通过展示数据的五个关键统计量,即最小值、下四分位数(Q1)、中位数、上四分位数(Q3)和最大值,帮助我们了解数据的中心趋势、离散程度以及可能存在的异常值。
箱线图如何看?
箱线图由一个矩形框和两条延伸出去的线段组成。矩形框的上边界表示上四分位数(Q3),下边界表示下四分位数(Q1),而矩形框内部的线表示中位数。上下两条延伸线段(也称为"盒须")连接到最小值和最大值,它们可以延伸至一定的距离之外,来展示可能存在的异常值。
箱线图可以用于比较不同组或变量之间的数据分布,以及检测异常值。通过观察箱线图,我们可以获取以下信息:
(1)数据的中位数:中位数是箱线图中矩形框内的线,表示数据的中心趋势。
(2)数据的四分位数:矩形框的上边界是上四分位数(Q3),下边界是下四分位数(Q1),它们可以用来描述数据的分布情况。
(3)数据的离散程度:通过观察盒须的长度可以了解数据的离散程度。较长的盒须表示较大的离散程度。
(4)异常值的存在:盒须之外的点被认为是异常值,可能表示数据中的离群点或异常情况。箱线图提供了一种简洁而有力的方式来可视化数据的分布和统计特征,使我们能够更好地理解数据的整体情况和变异性。
箱线图如何绘制
R中提供了一个包ggplot2,具有丰富的绘图功能。在学术论文、商业报告等各种文稿中,都可以看到用ggplot2绘制的图表。我们也用ggplot2包来绘制一下箱线图。
首先,我们先导入R包:
### 导入包
library(ggplot2)
在这里,我们直接利用R自带的数据集做个演示。先看看数据张什么样:
ToothGrowth$dose <- as.factor(ToothGrowth$dose)
head(ToothGrowth)
数据示例:
接下来就开始展示各种箱线图绘制的技巧:
默认基础款
ggplot(ToothGrowth, aes(x=dose, y=len)) +
geom_boxplot()
绘制效果:
修改图片主题
ggplot(ToothGrowth, aes(x=dose, y=len)) +
geom_boxplot() +
theme_classic()
绘制效果:
彩色款
ggplot(ToothGrowth, aes(x=dose, y=len, fill=dose)) +
geom_boxplot() +
theme_classic()
绘制效果:
分组展示
ggplot(ToothGrowth, aes(x=dose, y=len, fill=supp)) +
geom_boxplot() +
theme_classic()
绘制效果:
写在最后
除了在前面介绍的箱线图基本绘制技巧,我们在实际绘图过程中还经常会遇到其他的需求,比如:旋转箱线图的显示方向、在箱线图上显示平均数的位置、在箱线图上显示原始数据点、调整legend的位置等。想要获取相关操作的完整版代码和结果示例,欢迎关注公众号:1号程序员,后台回复:E002,马上获取!
标签:线图,教程,数据,dose,ggplot2,四分,绘制,位数 From: https://blog.51cto.com/u_16245388/7507432