Standard deviation
Bessel's correction
贝塞尔校正
为什么样本方差(sample variance)的分母是 n-1?
非常好的问题,探索这个问题的答案,不仅能更好的了解自己和这个世界,还能避免被征收“偏差税
”Bias Tax!
先说结论,样本标准差的分母写成n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel's Correction)[1]。注意这个贝塞尔不是贝塞尔曲线
(Bézier curve)那个贝塞尔。
为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。
在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。
先看一篇我改编的故事《比尔盖茨冲进酒吧
》:
一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。
从上面的数据和图表,你可以看出50000美元这个平均值,比较准确的体现了9个人的收入水平。
正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……
假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。
如图,相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔
一样薄。
而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。
9人抱头哭死在厕所……
剧终^_^
在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9人的平均年薪无缘无故的涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了1亿。
那统计学家应该怎么办呢?
在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。
应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)
排除法这种技术手段也经常应用在比赛打分上。
我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。
但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。
这种排除最高/低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。
例如,下面是10个裁判的打分
上图中最高分把选手的平均值拉高了0.60分,你可能会说,这点分数不算啥,应该影响不大。
但在实际的比赛中,选手的差距通常非常的小,0.1分都会对选手的排名产生显著的影响。
为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。
比尔盖茨和去掉最高/低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。
现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是n,也是一种排除法来消除干扰的技术手段。
为什么要减去1,这个1代表的是哪个数?
这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度
标签:干扰,平均值,比尔盖茨,贝塞尔,sample,年薪,variance,分母 From: https://www.cnblogs.com/chucklu/p/16884028.html