首页 > 其他分享 >为什么样本方差(sample variance)的分母是 n-1?

为什么样本方差(sample variance)的分母是 n-1?

时间:2022-11-12 16:22:07浏览次数:82  
标签:干扰 平均值 比尔盖茨 贝塞尔 sample 年薪 variance 分母

Standard deviation

 

 

Bessel's correction

贝塞尔校正

 

 

为什么样本方差(sample variance)的分母是 n-1?

非常好的问题,探索这个问题的答案,不仅能更好的了解自己和这个世界,还能避免被征收偏差税

”Bias Tax

先说结论,样本标准差的分母写成n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel's Correction)[1]。注意这个贝塞尔不是贝塞尔曲线

(Bézier curve)那个贝塞尔。

为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。

在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧

》:

一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。

从上面的数据和图表,你可以看出50000美元这个平均值,比较准确的体现了9个人的收入水平。

正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……

假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。

如图,相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔

一样薄。

而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。

9人抱头哭死在厕所……

剧终^_^

 

在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9人的平均年薪无缘无故的涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了1亿。

那统计学家应该怎么办呢?

在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。

应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)

 

排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。

但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。

这种排除最高/低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。

例如,下面是10个裁判的打分

上图中最高分把选手的平均值拉高了0.60分,你可能会说,这点分数不算啥,应该影响不大。

但在实际的比赛中,选手的差距通常非常的小,0.1分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。

 

比尔盖茨和去掉最高/低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。

 

现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是n,也是一种排除法来消除干扰的技术手段。

 

为什么要减去1,这个1代表的是哪个数?

这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度



 

标签:干扰,平均值,比尔盖茨,贝塞尔,sample,年薪,variance,分母
From: https://www.cnblogs.com/chucklu/p/16884028.html

相关文章

  • 28-jmeter-固定定时器(设置两个sampler之间的等待时间)
    前言Jmeter的线程组在发送2个请求之间需要设置一个等待时间时,类似于代码里面的sleep休眠时间,可以用固定定时器解决。固定定时器有2个HTTP请求,a是注册用户请求,b是登录的......
  • SQL 遇到以零作除数错误——用NULLIF()函数处理为0的分母
      withtb1as(select1a,0b)selectISNULL((a*1.0 /NULLIF(b,0)),0)ABfromtb1 说明:a必须乘以1.0 否则   withtb1 as(select 1a,2b) ......
  • windows-classic-samples
    windows-classic-samples-github一个例子今天查找PostQueuedCompletionStatus的官方例子,就在github发现了这个宝库下载后,发现里面有很多官方给出的范例,按照英文......
  • SampleClean概述
    目前阶段临近考试周,近期将在复习大四专业课的基础上,计划学习以下内容:项目内容:自动化的清洗算子框架学习(了解SampleClean和进阶版本的ActiveClean)从中理解质量评估函数设......
  • 19Jmeter之取样器 jp@gc - Dummy Sampler
    用于模拟一个接口请求,效果类似于Mock。可以设置响应吗,响应信息,延迟时间(latency),响应时间,模仿响应时间,请求数据,响应数据意义在于:当服务器还没开发完成的时候,帮助调试脚本......
  • FFmpeg问题:more samples than frame size
    1、问题描述:写文件的时候,编码器的frame_size比输入帧的nb_samples小,导致如下图所示问题2、尝试解决(失败)显示修改编码器的frame_size属性,失败原因:打开编码器(即......
  • JMeter 扩展开发:自定义 Java Sampler
    JMeter内置支持了一系列的常用协议,例如HTTP/HTTPS、FTP、JDBC、JMS、SOAP和TCP等,可以直接通过编写脚本来支持相关协议的测试场景。除了这些协议之外,用户也可能需要进行......
  • AudioMixer中是如何决定track是否需要resample
    AudioMixer中是如何决定track是否需要resample?AudioMixer内部有成员变量mSampleRate和mTracks,Track对象内部有个成员变量sampleRate,在MixerThread进行prepareTracks_l检......
  • Troch的Upsample模块
    参考:https://mp.weixin.qq.com/s/Sp9K_Xl5eJDy-D_yiqfVcQ讲解upsample参数下面这个图很重要:所以在使用bilinear插值的时候,需要将align_coners参数设置为True。常用......
  • jmeter之Sampler响应结果编码修改(解决乱码问题
    当响应数据或响应页面没有设置编码时,jmeter会按照jmeter.properties文件中,sampleresult.default.encoding设置的格式解析默认ISO-8859-1,解析中文肯定出错[java]viewpla......