首页 > 其他分享 >评价统计量优劣的几个标准——统计学(十二)

评价统计量优劣的几个标准——统计学(十二)

时间:2022-11-09 18:00:58浏览次数:84  
标签:优劣 样本 十二 统计学 参数 theta hat 统计 估计量

在推断性统计中,我们需要从样本中加工提取其反映总体的信息,这就需用到统计量,发挥统计量的作用。这就提出了一个问题,什么样的统计量能达成我们的述求,能完美地提取出总体的规律性的特征。回答这个问题就是理解衡量统计量优劣的几个标准,从大的方面说要求是充分统计量,从小的方面收要求满足无偏性、有效性和一致性,本文将展开该方面的讨论。

一、充分统计量

对参数进行估计,要使用从样本加工而来的统计量,这是一种对样本的信息提取。但我们知道,加工在简化信息结构的同时,肯定也丢失了一部分信息。要如何加工样本,才能尽可能多地删掉无用信息,保留尽可能多的有效信息——或者更进一步地,保留全部的有效信息呢?这需要我们对有效和无效作出定义上的区分。
众所周知,信息是有效的还是无效的,取决于我们要使用信息来做什么。比如说想判断第二天的气温来看看应该穿什么衣服,那么“明天会下雨”这个信息就是有效的,而“奥运会将在2021年开”这个信息就无效了。现在我们想要使用信息来对参数作估计,拥有的全部信息就是样本观测,要保留全部的有效信息,必须将样本按一定方式加工成统计量。

充分统计量:对于统计量\(T=T(\boldsymbol{X})\),如果在已知\(T\)的条件下样本\(\boldsymbol{X}\)的条件分布与待估参数\(\theta\)无关,则称\(T(\boldsymbol{X})\)是\(\theta\)的充分统计量。

这也就是说,如果给定了\(T\),则\(\boldsymbol{X}|T\)的联合分布(联合密度)中甚至不含有\(\theta\),自然不包含\(\theta\)的任何信息,因此在给定\(T\)的情况下再关注\(\boldsymbol{X}\)是没有必要的。这就是充分性的由来。
对于\(T=T(\boldsymbol{X})\)这种记法应该不至于太陌生。事实上这里左右两边的\(T\)代表不一样的意思,右边的\(T\)是一个\(n\)元函数\(T(x_1,\cdots,x_n)\),而\(\boldsymbol{X}=(X_1,\cdots,X_n)\)就是它的取值,因此\(T(\boldsymbol{X})\)代表了一个样本的函数,也就是一个统计量,这个统计量用\(T\)表示。

直观上理解,充分统计量就是能概括样本中的所有信息的统计量。当然,我更喜欢以这样的方式去理解充分统计量:知道了充分统计量后与知道所有样本对推断未知参数的效果相同。
一个现实中的例子就是星座与性格的关系。性格肯定是一个随机变量,它的分布取决于太多的因素,比如家庭、生长的地域、受的教育、还有生理等诸多因素。但莫明其妙的是,在很多情况下,这么多因素的信息居然浓缩在“星座”这一个信息里。比如,你想判断一个人的性格,你可以问他或她是什么星座的,给定星座的情况下,你对他/她性格的“分布”会有一个估计。很多情况下,你还可以加上血型这样一个统计量,估计会更精确点。但匪夷所思的是,有人还再加上“生肖”这样一个中国特有的“统计量”,再对各星座的性格做出统计判断。

二、评价统计量的三个标准

参数估计是用样本统计量作为总体参数的估计。对于一个未知参数,可以构造很多个统计量去估计它,究竟什么样的统计量是优良估计量,主要有以下评价标准:无偏性、有效性和一致性。

2.1无偏性

无偏性指的是样本指标的平均数等于被估计的总体参数,即估计量\(\hat{\theta}\)的数学期望等于待估参数的真值\(\theta\)。一个参数的估计量常不止一个。常用的评价标准有多个,如无偏性、有效性和一致性。

设\(\widehat{\theta}(x_1,x_2,...,x_n)\)是参数 \(\theta\) 的一个估计,若对于参数空间\(\Theta=\{\theta\}\) 中的任一个$\theta $都有

\[E(\widehat{\theta})=\theta 对∀\theta∈{\Theta} \]

则称\(\widehat{\theta}\)为\(\theta\)的无偏估计,否则称为\(\theta\)的有偏估计。

由于样本的随机性,这种偏差时大时小,时正时负,而把这些偏差平均起来其值为\(\theta\),所以无偏是指无系统偏差。 若一个估计不具有无偏性,估计均值$E(\hat{\theta }) $与参数真值 \(\theta\)总有一定距离,这个距离就是系统偏差。这就是有偏估计的缺点。在随机抽样中,有时会抽到偏小的单位,有时会抽到偏大的单位,在无偏估计的情况下,这种误差没有系统性方向,随着样本的增加,这有大有小的误差会相互抵消,因此无偏估计量是指没有系统性误差。有偏估计量则不同,它的误差不会随着样本的增大而消失,而是具有一定的方向,会产生系统性误差。

2.2有效性

有效性也称为最小方差性,指的是估计量在所有无偏估计量中具有最小方差。对同一总体参数的两个无偏点估计量,有更小方差的估计量更有效。

设\(\hat\theta_{1}​\)与​\(\hat\theta_{2}​\)为参数\(\theta\)的两个无偏估计量,若\(Var\hat\theta_{1} < Var\hat \theta_{2}\)​,则称\(\hat\theta_{1}​\)​比\(\hat\theta_{2}​\)更有效。

2.3一致性(相合性)

一致性指的是随着样本量的增大,统计量的值越来越接近被估计的总体参数。估计量 \(\hat\theta\) 与 \(\theta\)的真值任意接近的概率趋于1,它反映了估计量的一种大样本性质。

设 \(\hat\theta ({X_1},{X_2},...,{X_n})\)为参数\(\theta\)的估计量,若 \(\hat\theta\)依概率收敛于\(\theta\),则称\(\hat \theta\)为\(\theta\)的一致估计量,即

\[\\limit_{n\to\infty } P(| {\hat\theta - \theta }| >\varepsilon ) = 0 \]

如果一个统计量是一个一致估计量,那么样本容量越大,代表性就越好,估计的可靠性就越高;如果不是一致估计量,增大样本容量不会提高其代表性。

总结

参考文献

数理统计3:充分统计量,因子分解定理,点估计的评判标准
评价参数估计的常用指标有哪些?

标签:优劣,样本,十二,统计学,参数,theta,hat,统计,估计量
From: https://www.cnblogs.com/haohai9309/p/16874074.html

相关文章

  • 一本统计书的的中文翻译:The Elements of Statistical Learning (ESL) 《统计学习的
    一本统计书的的中文翻译:TheElementsofStatisticalLearning(ESL):https://github.com/szcf-weiya/ESL-CN 英文原版本(第2版,电子版)地址   https://hastie.su.doma......
  • 复现经典:《统计学习方法》第 7 章 支持向量机
    本文是李航老师的《统计学习方法》[1]一书的代码复现。作者:黄海广[2]备注:代码都可以在github[3]中下载。我将陆续将代码发布在公众号“机器学习初学者”,敬请关注。代码目录......
  • C++第十二章:动态内存与类+断点错误
    前言C++类是针对对象的一种控制方法,可以看作各种函数与变量的管理方。类同样也会消耗内存,而且类一旦被创建,意味着相关成员会大量调用,此时内存的管理极其重要,常采用delete......
  • 最大似然估计——统计学(十一)
    极大似然估计法(thePrincipleofMaximumLikelihood)由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。通俗理......
  • 简述服务网格的优劣势
    ServiceMesh是一个专门处理服务通信的基础设施层。它的职责是在由云原生应用组成服务的复杂拓扑结构下进行可靠的请求传送。在实践中,它是一组和应用服务部署在一起的轻量级......
  • Python工具箱系列(十二)
    在计算机世界里只有二进制。唯有人类才会对数据进行类型与价值判断。例如,认为某些文件是文本文件、是WORD/EXCEL文件或者是图片。对于加密算法来说也是一样的,加解密算法处......
  • #冲刺创作新星# #跟着小白一起学鸿蒙# [十二]简单Http客户端
    作者:王石在《#跟着小白一起学鸿蒙#[二]第一个OpenHarmony程序》我们熟悉了如何在开源鸿蒙开发应用,并通过hdc工具拷贝至开发板运行。但是那时候我们只是打印了最简单的hel......
  • 块设备I/O和缓冲区管理(十二章)
    目录第十二章读书笔记:块设备I/O和缓冲区管理12.1块设备I/O缓冲区I/O缓冲的基本原理12.2I/O缓冲区管理算法Unix算法的缺点12.3新的I/O缓冲区管理算法第十二章读书笔记:......
  • 第十二章
    一、学习笔记二、遇到问题什么是pv算法?三、解决方法PV操作:对信号量进行相应操作S:信号量P:请求操作,相当于S=S-1;S>=0,进程继续进行V:释放操作,相当于S=S+1,S>0,进程被唤......
  • 第十二章学习笔记
    第十二章学习笔记一、 教材内容总结摘要:本章讨论了块设备I/O和缓冲区管理;解释了块设备I/O的原理和I/O缓冲的优点;论述了Unix的缓冲区管理算法。12.1块设备I/O缓......