Standard deviation

Bessel's correction

贝塞尔校正

非常好的问题，探索这个问题的答案，不仅能更好的了解自己和这个世界，还能避免被征收“偏差税

”Bias Tax！

先说结论，样本标准差的分母写成n-1，是为了对自由度进行校正，这叫贝塞尔校正（Bessel's Correction）[1]。注意这个贝塞尔不是贝塞尔曲线

（Bézier curve）那个贝塞尔。

为了让中学水平的读者就能理解，我尽量不用公式，用浅显的语言和生活中的案例，来叙述这个问题的来龙去脉。这算是对其他答案的补充，也许看完后，再看其他高手的回答就没那么难了。

在统计领域，你经常会看到，为了减少干扰数据对结论的影响，数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧

》：

一天晚上，小镇酒吧里坐着9个人，大家都是小镇上的工薪族，年薪的平均值在5万美元左右。

从上面的数据和图表，你可以看出50000美元这个平均值，比较准确的体现了9个人的收入水平。

正在此时，比尔盖茨急匆匆的走进酒吧，冲向厕所……

假如比尔盖茨的年薪是10亿美元，在他上厕所的时间里，另外9个人啥也没做，加上比尔盖茨，10个人的平均年薪平均值一下子从5万爆涨到1亿美元。

如图，相比之下，和比尔盖茨相比，9人的年薪太渣，完全看不出高度，像二向箔

一样薄。

而当比尔盖茨离开后，他们还是啥也没做，平均年薪却暴跌了近1亿美元。

9人抱头哭死在厕所……

剧终^_^

在这个例子里，比尔盖茨就是一个干扰数据，因为他的存在，让平均值的计算并不能体现酒吧里工薪族的真实平均水平，9人的平均年薪无缘无故的涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平，因为他缩水到了1亿。

那统计学家应该怎么办呢？

在统计上，把比尔盖茨这种干扰数据称为异常值（Outlier）。

应对这种异常值，最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉，就无法干扰平均值了。（当然实际应用比较复杂，排除异常值需要谨慎，不能随意的排除）

排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大，为了减少单个教练的影响，比赛通常会安排多个裁判一起给选手打分，然后再取一个平均值。

但实际上在求平均值时，还会再去掉最高分和最低分，然后对剩下的分数计算平均值。

这种排除最高/低分的手段也是为了消除干扰，因为最高分和最低分对平均值的影响比较大，会大幅偏离真实的水平。

例如，下面是10个裁判的打分

上图中最高分把选手的平均值拉高了0.60分，你可能会说，这点分数不算啥，应该影响不大。

但在实际的比赛中，选手的差距通常非常的小，0.1分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰，得到一个相对客观的平均值，通常在计算平均值时，会排除掉最低分和最高分，这样算出来的平均值叫裁剪平均值（Truncated mean）。

比尔盖茨和去掉最高/低分的这两个例子，都是为了说明统计领域的校正技术，用排除法来消除掉干扰数据的影响。

现在你也可能意识到了，在样本方差的计算上，分母使用（n-1），而不是n，也是一种排除法来消除干扰的技术手段。

为什么要减去1，这个1代表的是哪个数？

这个减去的1，不特指任何一个数，1代表那个失去“独立客观”的维度

标签：干扰,平均值,比尔盖茨,贝塞尔,sample,年薪,variance,分母
From： https://www.cnblogs.com/chucklu/p/16884028.html