平均数 = 数据典型值
平均数让我们有办法确定一批数据的中心
量度全距
通过计算全距(也叫极差),是用于量度数据集分散程度的一种方法,我们可以轻易获知数据分散情况。
全距指出数据的扩展范围,有点儿像测量数据的宽度。
全距的计算方法是:用数据集中的最大数减去数据集中的最小数(上界-下界)
最小值称为下界,最大值称为上界。
全距是描述数据集分散程度的简便方法,但通常并非描述数据在该全距内的分布形态的最好方法。
如果你的数据中包含异常值,那么,使用全距描述数据的分散情况会极具误导性,原因是全距很容易受异常值影响。
全距不可能指出数据的真实形态以及数据是否包含异常值。
迷你距
构建迷你距的一个办法是:仅使用数据中心周边的数值。
最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。
中间的四分位数(Q2)就是中位数,因为它将数据一分为二。
四分位距 = 上四分位数 - 下四分位数
四分位数:
它们将数据一分为四,最小的四分位数称为下四分位数,最大的四分位数称为上四分位数,中间的四分位数称为中位数。
与全距相比,四分位距较少受到异常值的影响。
下四分位数以下还有25%的数据,上四分位数以上还有25%的数据。也就是说,四分位距仅使用了中间50%的数据,如此就将异常值弃而不用。
求下四分位数的位置:(n是频数和)
求上四分位数的位置:(n是频数和)
例子:
百分位数:
尽管百分位距不太常用,但百分位数本身却对于划分名次、排行很有用。
你可以通过百分位数确定某个数值相对于其他数值的高低。
箱线图
箱线图(箱形图)专门用来显示各种各样的距。
箱线图显示数据的全距、四分位距以及中位数。
在同一张箱线图上可以比较几批数据,箱线图是对不同数据集进行比较的极好方法。
如果你的数据中有异常值,则全距会更宽。
在箱线图上,一条条线的长度会随着上、下界的增长而增长。
通过观察箱线图上的线,就能了解数据的偏斜程度。
如果箱线图是对称的,表示基础数据很可能也相当对称。
方差与标准差
各个数值与均值的距离正、负相抵。
方差和标准差通过观察数值与均值的距离量度数值的分布形态。
标准差:取方差的平方根
标准差越小,数值离均值越近,标准差可能得到的最小数值为0
方差速算法:
使用标推分比较不同数据集中的数值
使用标淮分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同。
通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。
标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1,这是一种可用于进行比较的通用分布。
标准分将你的数据有效地转化为符合这个模型的数据,同时确保数据的基本形状不变。
标准分可以取任意值,这些值表示相对于均值的位置。
正的z分表示数值高于均值,负的z分表示数值低于均值。
若z分为0,则数值等于均值本身。
数值大小体现了数值与均值的距离。
如果一个数值在距离均值1个标准差的范围内,我们就知道,数值的标推分在-1到1之间。
与此类似,如果一个数值在距离均值两个标准差的范围内,则数值的标准分在-2到2之间。
公式总结