假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
一、假设检验的反证法思想
假设检验是一种常见的基于样本的“统计证据”来对总体进行推断的方法。这么讲很抽象,我们来举个例子,假设有人说:“在马萨诸塞州某一天(没错我就直接搬Matlab中的例子了),1加仑汽油的平均价格是1.15美元”。我们想知道他说的对不对。怎么能确定这个说法的真实性呢?你可以在每个加油站询问价格。这种方法当然是最准确的,但它耗时、昂贵,实际操作是不可能的。一种更简单的方法是在全州范围内随机选择少数几个加油站询问价格,然后计算样本平均值。由于选择过程中的随机性,样本的平均值会各不相同。假设我们的样本均值是1.18美元。那么这0.03美元的差价到底是随机抽样的结果(1加仑汽油的平均价格就是1.15美元),还是1加仑汽油的平均价格实际上大于1.15美元的重要证据?此时就可以用假设检验的方法,用于做出此类决策。
1.1 假设检验的假设
假设检验有很多不同种类,不同的假设检验对数据中被抽样的随机变量的分布做出不同的假设(都有哪些假设后面讲)。而在选择方法时,必须考虑这些假设。所有的假设检验都有相同的基本术语和结构。
零假设:也称为原假设,是关于你想检验的总体的某一种判断。它在某种意义上是“无效”的,因为它通常代表着一种“现状”。它通过 “断言”一个总体参数或总体参数的组合具有一定的值来形式化。在我们的例子中,零假设是“整个州的平均汽油价格就是1.15美元”。
零假设写作H0,那么H0:µ=1.15;H0:µ<=1.15;H0:µ>=1.15。
备择假设:是一种与原假设相反的关于总体的断言。在上面的例子中,可能的备择假设有:
H1:µ≠1.15 即州平均价格不是1.15美元(对应双尾检验)
H1:µ>1.15 -即州平均价格大于1.15美元(对应右尾检验)
H1:µ<1.15 -即州平均价格小于1.15美元(对应左尾检验)
从这里面选一个,作为你的备择假设。在选择原假设和备择假设时,我们通常根据是希望收集证据予以支持还是拒绝的判断作为选择依据。
1.2假设检验的反证法原理
一般来说,将希望收集证据予以拒绝的假设作为原假设,而将研究者希望通过搜集证据予以支持的假设作为备择假设。
假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设H0,否则应接受假设H0。
二、第一类错误与二类错误
第一类错是Ⅰ型错误,拒绝了实际上成立的H0,即错误地判为有差别,这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用α表示。α可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小,一般取0.05,当拒绝H0时则理论上理论100次检验中平均有5次发生这样的错误。
第二类错误是Ⅱ型错误,接受了实际上不成立的H0,也就是错误地判为无差别,这类取伪的错误称为第二类错误。第二类错误的概率用β表示,β的大小很难确切估计。
二者的关系是当样本例数固定时,α愈小,β愈大;反之,α愈大,β愈小。因而可通过选定α控制β大小。要同时减小α和β,唯有增加样本例数。统计上将1-β称为检验效能或把握度,即两个总体确有差别存在,而以α为检验水准,假设检验能发现它们有差别的能力。实际工作中应权衡两类错误中哪一个重要以选择检验水准的大小。
我们举三个例子来说明这个问题:(例1,例2来自百度百科《统计学》中“第一类错误”和“第二类错误”分别是指什么?_百度知道)
2.1 判决问题
假设检验比作法庭判案,我们想知道被告是好人还是坏人。原假设是“被告是好人”,备择假设是“被告是坏人”。法庭判案会犯两种错误:如果被告真是好人,而你判他有罪,这是第一类错误(错杀好人);如果被告真是坏人,而你判他无罪,这是第二类错误(放走坏人)。
2.2 误诊问题
假设我们从某个指标一组检测结果判断某个人是否是肝病病人。原假设:健康人,备择假设:肝病病人。那么,当这组数据表明应该拒绝原假设,那么,我们可能会犯第Ⅰ类错误,将健康人误诊为肝病病人(图中黄色部分)。但是如果我们接受了原假设,认为该人为健康人,我们有可能会犯第II类错误,将肝病病人认为是健康人(图中红色部分),因为有一部分肝病病人该指标的表现和正常人类似,从数据无法判断。
2.3 核酸检测
新冠病毒检测,把一个明明没有被感染的人说成是病毒携带者。这就犯了假阳性错误。第二类错误,也叫假阴性错误,就是明明它是,你把它当成了不是。意思是说把错的当成了对的,放走了坏人。被感染新冠病毒的人,检测仪器没有将病毒检测出来,错当成没有感染的人。就犯了假阴性错误。这两种错误,假阳性和假阴性,具有此消彼长的关系。一种错误增加,另一种错误就会减少。犯假阳性错误多一些,犯假阴性错误的次数就会减少。不仅如此,对错误分类之后,你就会发现,虽然都是错误,但是种类不同,它们的破坏程度也大不相同。
三、假设检验背后的机制设计
不仅如此,对错误分类之后,你就会发现,虽然都是错误,但是种类不同,它们的破坏程度也大不相同。
我们说新冠病毒,你觉得是假阳性错误,也就是没有感染却诊断为感染(误诊)更严重,还是假阴性错误,感染了没有诊断出来(漏诊)更严重呢?当然假阴性错误更可怕。健康人被误诊顶多多隔离几天;感染者要被漏诊放出来,可能就造成指数级的感染,牵连一座城市甚至一个国家。
3.1
宁可错杀一千,不可放过一个。
每一个医学检测,都存在假阳性和假阴性率。其目标都是要尽可能地避免假阴性错误 - “将有病诊断为没病” 的发生。面对癌症的筛查,就要查的严一点,宁可没有癌症给他查出来癌症,也不要这个人有癌症没查出来。
我们再举几个生活中常见的例子。
不知道你有没有触发烟雾报警器的经历,按理说着火时报警器才应该报警,可是有时候炒菜油烟比较大也能触发报警,就会给人造成困扰。报警器是不是过于灵敏了呢?其实,报警器的这种灵敏度设置就是宁可发生假阳性错误,不是着火当成着火,也坚决不能发生假阴性,着火了警报没响,因为漏报警比假报警严重太多了。
每个国家在对穷人发放福利的问题上,都存在两派:一派人担心发少了,符合救助条件的人没有拿到救助,就是担心犯假阴性错误。另一派人担心发错了,那些不符合条件的人拿了救助,浪费纳税人的钱,他们就是担心犯假阳性错误。而持前一派观点占主导地位的国家,一般就都是高福利国家。
谈恋爱或者结婚,错过一个合适的人就会犯假阳性错误。
选择一个不合适的人又会犯假阴性错误。而后者,选择一个不合适的人,往往比错过一个合适的人带来的问题更大。错过了还可以再寻找,但是一旦决定和一个不合适的人在一起,可能损失更多。
交朋友也是同样的道理,宁愿错过一个知己,也不应该不加选择的结交朋友,从而交损友酿成大错。
宁愿放过坏人,也绝不冤枉好人。
我们说一个经济学中的应用。
大家知道创新会带来一些新的从前没有出现过的新商业模式,因为是新出现的,也就没有相对应的法规,国家就会面临不知道如何监管的问题。
那出现新事物时,我国政府是怎么做的呢?
你知道吗?我们天天用的支付宝,当初是在运营了五年之后才拿到了第一张牌照的。政府在支付宝出现的初期明知道有风险还是放手让它发展,就是以宁愿承担风险也不扼杀创新,宁可多犯假阴性错误也绝对不犯假阳性错误的心态去监管。
因为坏的商业模式迟早也会被市场淘汰,而好的商业模式如果被扼杀代价是不可估量的。让子弹飞一会儿。等时机成熟了,再回头总结制定法规。
所以中国这几十年各行各业的飞速发展,政府在改革开放期间以非常灵活宽松有弹性的政策来支持中国的民营企业,是非常重要的一个因素。
在学校里,老师教育孩子,也特别应该区分这两种错误。如果学生本身犯了错,老师认为他没错(放过)就犯了假阴性错误。如果学生本身没有错,却主观臆断认为学生犯了错(冤枉)就犯了假阳性错误。
我认为冤枉学生错误更严重,孩子的心灵往往是脆弱和敏感的,被大人误解可能造成不可挽回的打击。所以一个有责任心的老师,可以在问题出现时,花时间去探究问题出现背后的真实原因,是非常重要的。有时候宁可坏孩子逃过了惩罚,也不要让好孩子蒙受不白之冤。
公司的管理,严格一点好还是宽松一点好呢?
严格的管理可以避免假阳性错误,比如上班摸鱼,打游戏,消极怠工。但是员工也就没有了个性化的空间,就会僵化,失去活力和创新。所以需要创新多一些的公司就可以给员工更多自主发挥的空间,避免因为制度的原因,让好点子被埋没。
总结
假设检验是推断性统计的重要范式,假设检验作为一种重要的统计推理方法,在工作中越来越被广泛使用。统计推断是由样本的信息来推测母体性能的一种方法,它又可以分为两类问题,即参数估计和假设检验。实际生产和科学实验中,大量的问题是在获得一批数据后,要对母体的某一参数进行估计和检验。参数估计是假设检验的第一步,没有参数估计,也就无法完成假设检验。假设检验根据原资料假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值是否存在显著差异,是否应当接受原假设选择,利用统计学思维,得出合理的推断。使用假设检验,能让我们在做判断时事半功倍,做出的决策更科学,不武断,更好地指导实践中的科学管理。
参考文献
统计推断基础(5)---一类错误与二类错误
第一类错误和第二类错误的关系是什么?
假设检验_科学统计做决策
统计学:宁可错杀一千,还是宁可放过坏人?