为什么样本方差是除以 n-1 而不是 n？

时间：2022-12-05 21:36:56浏览次数：68

标签：样本 frac 方差除以 mu bar Sigma

摘自https://www.zhihu.com/question/20099757/answer/13971886

https://www.zhihu.com/question/20099757/answer/13971898

https://blog.csdn.net/Hearthougan/article/details/77859173

一组数据的方差定义是：\(S_1^2=\frac {\Sigma_1^n (X_i-\bar X))}n\)。

但是如果从总体中选出样本，计算样本方差，公式就变成了：

\[S_2^2=\frac {\Sigma_1^n (X_i-\bar X))}{n-1} \]

为什么样本方差只除以 n-1 呢？因为我们从总体里取出样本，计算出这个样本的均值和方差，并不是关心样本本身，是为了以此反推总体的均值和方差，所以他们要尽可能接近。样本的均值与总体的均值是肯定是期望相等的（\(E(\bar X)=E(\mu)\)），但是样本方差如果用除以 n 的方式来计算，那他和总体的方差并不相等，而是偏小的（\(E(S_1^2)\le E(\sigma ^2)\)）。

\[E(S_1^2)=\frac {\Sigma_1^n E((X_i-\bar X)^2)}n = \frac { E(\Sigma_1^n(X_i-\mu+\mu-\bar X)^2)}n \]

\[= \frac {E(\Sigma_1^n (X_i-\mu)^2-2\Sigma_1^n (X_i-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n \]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-2n (\bar X-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n \]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-n (\bar X-\mu)^2)}n \]

\[=E(\frac {\Sigma_1^n (X_i-\mu)^2}n)-{E( (\bar X-\mu)^2)} \]

\[=Var(X)-Var(\bar X)=\sigma^2-\frac {\sigma^2}n=\frac {n-1}n{\sigma^2}\le\sigma^2 \]

所以，除非数据个个相等，不然 \(E(S_1^2)\) 总是比真正的 \(\sigma^2\) 略小。而他们的差距也正是\(\frac {n-1}n\)，所以把除数改成 \(n-1\) 就刚刚好，这就是总体方差的无偏估计。

还有一种“自由度”的理解方式，我不是很理解：样本方差与样本均值，都是随机变量，都有自己的分布，也都可能有自己的期望与方差。取分母n-1，可使样本方差的期望等于总体方差，即这种定义的样本方差是总体方差的无偏估计。简单理解，因为算方差用到了均值，所以自由度就少了1，自然就是除以(n-1)了。再不能理解的话，形象一点，对于样本方差来说，假如从总体中只取一个样本，即n=1，那么样本方差公式的分子分母都为0，方差完全不确定。这个好理解，因为样本方差是用来估计总体中个体之间的变化大小，只拿到一个个体，当然完全看不出变化大小。反之，如果公式的分母不是n-1而是n，计算出的方差就是0——这是不合理的，因为不能只看到一个个体就断定总体的个体之间变化大小为0。我不知道是不是说清楚了，详细的推导相关书上有，可以查阅。

标签：样本,frac,方差,除以,mu,bar,Sigma
From： https://www.cnblogs.com/ofnoname/p/16953408.html

R语言逐步回归、方差anova分析电影市场调查问卷数据可视化
全文链接：http://tecdat.cn/?p=30680原文出处：拓端数据部落公众号这是一份有关消费者对电影市场看法及建议的调查报告，我们采取了问卷调查法，其中发放问卷256份，回收有效问卷2......
Google Analytics增加访问统计样本
有的时候，GoogleAnalytics统计的页面速度的样本比较少，比如只有1个，如果想增加GoogleAnalytics增加访问统计样本，可以这样：_gaq.push(['_setSiteSpeed......
拓端tecdat|R语言代码编写对回归模型进行协方差分析
目录怎么做测试协方差分析拟合线的简单图解模型的p值和R平方检查模型的假设具有三类和II型平方和的协方差示例分析......
拓端tecdat|R语言蒙特卡洛方法：方差分量的Metropolis Hastings（M-H）、吉布斯Gibbs采样比
蒙特卡洛方法利用随机数从概率分布P(x)中生成样本，并从该分布中评估期望值，该期望值通常很复杂，不能用精确方法评估。在贝叶斯推理中，P（x）通常是定义在一组随机变量上的联合后验分......
拓端tecdat|R语言编程指导在不同样本量下的Little's MCAR检验
R语言在不同样本量下的Little'sMCAR测试我进行一个小型仿真，以在不同样本量下测试Little的MCAR检验1。我可以研究线性回归中的异方差。我能够找......
拓端tecdat|R语言代码编写逻辑回归、方差分析、伪R平方分析
R语言逻辑回归、方差分析、伪R平方分析目录怎么做测试假设条件并非所有比例或计数都适用于逻辑回归分析过度分散伪R平方测试p值Logistic回归示......
拓端tecdat|R语言编程指导异方差回归模型建模：用误差方差解释异方差
R语言异方差回归模型建模：用误差方差解释异方差在社会科学中将OLS估计应用于回归模型时，其中的一个假设是同方差，我更喜欢常误差方差。这意味着误......
拓端tecdat|R语言编程指导基于协方差的SEM结构方程模型中的拟合指数
R语言基于协方差的SEM结构方程模型中的拟合指数在实践中，因子负载较低（或测量质量较差）的模型的拟合指数要好于因子负载较高的模型。例如，如果两......
拓端tecdat|R语言编程指导基于协方差的结构方程拟合的卡方检验
R语言基于协方差的结构方程拟合的卡方检验在评估结构方程模型的拟合，很常见的应用是研究χ2进行测试，因为在给定足够大的样本量的情况下，它几乎总会......
06 样本及抽样分布 | 概率论与数理统计
1.随机样本1.总体与个体总体：研究对象的全体，即试验的全部可能观察值称为总体个体：总体当中的每个对象，总体中的每个可能观察值成为个体容量：总体中所包含的个体的个数称......

为什么样本方差是除以 n-1 而不是 n？

相关文章

赞助商

阅读排行