首页 > 其他分享 >贝叶斯公式的应用

贝叶斯公式的应用

时间:2022-11-28 18:32:09浏览次数:43  
标签:概率 频率 公式 贝叶斯 应用 检测 主义 阳性

贝叶斯公式如何应用?以医学领域为例。医学检测通常以检测结果是阳性或阴性来初步断定受试者是否患病。在现实世界中,测试很少是完全可靠的,会出现假阳性和假阴性的问题。假设一个75岁的人对某项癌症进行检测,而这种癌症在75岁的发病率为1%,这时他的检测结果呈阳性,那么这个人可能会非常绝望,觉得自己一定要写遗嘱了。但是测试往往并不完全可靠,假设准确率有99%,也就是说100名患有癌症的人中有99人的检测结果呈阳性,而健康的100人中有99人的检测结果呈阴性。如果测试呈阳性,癌症的真正可能性有多大?贝叶斯定理告诉你,如果只检测一次,得到的结果为阳性,那么他患癌的概率只有50%。

贝叶斯公式是如何计算出50%这个相对乐观的概率的呢?先验概率P(A)即75岁癌症的发病率1%;P(B|A)即患有癌症的情况下检测呈阳性的概率99%。所以 P(A)乘以 P(B|A)等于0.01乘以0.99,即0.0099。分母P(B)是无论是否患有癌症,其检测结果呈阳性的概率,包括真阳性和假阳性,运算稍复杂,结果为0.0198。那么最终P(A|B)=P(A)P(B|A)/P(B)的结果,即检测呈阳性的同时患癌的概率P(A|B)为0.5,也就是50%。但是如果二次接受检测结果仍为阳性,再一次应用贝叶斯公式进行运算,那么患癌症的概率就会从50%提高到99%。我们看到,第一次的检测结果会影响到第二次的检测结果,这就说明迭代贝叶斯定理可以逐渐产生更为精确的信息,这同时也提示我们,任何医学诊断的做出都需要经过多次检测,以防误诊。

然而,就是这样一个拥有无限潜力的公式,也曾经历过被学术权威冷落排挤的跌宕历史。在统计学界,频率主义者曾把贝叶斯主义当做劲敌。诞生于1920年代的频率主义,其实就是我们在数学课本里学到的最经典的统计学框架。频率主义假设概率就是对频率的测量,强调当样本数量变得足够大时,误差就会逐渐消失。频率主义的核心是用p值来对某个理论模型的可信度进行统计检验,只有经历过足够多的新数据的检验,这个理论模型才科学。

频率主义当时在遗传学研究方面表现出色,更加确信客观性为唯一的金科玉律,对带入先验概率的贝叶斯主义非常反感,因为这就相当于在未经检测之前就将某个理论赋予了主观的置信度。他们将这种主观性(在书中被作者称之为是“偏见”)视为洪水猛兽,认为包含主观性的统计方法根本就不算是科学。

在埃贡·皮尔逊、罗纳德·费希尔等频率主义统计学家主导的整个20世纪中期,“主观”、“先验”和“贝叶斯”等术语都被逐出了统计学系。曾有医学科学家用贝叶斯定理证明了烟草在导致肺癌方面的危害,但是接受了烟草行业资助的频率主义大佬费希尔,则指责这位科学家在研究中缺少频率主义方法要求的对照组和重复实验,继而颠倒因与果的顺序,提出潜在的肺癌会导致人倾向于吸烟。

然而频率主义也有无法回避的弱点。首先p值是可以通过大量实验来操控的,同时,对于很多小概率事件的预测,比如地震,我们能够获得的测量数据和实验机会是很少的。而贝叶斯统计的神奇之处,正是在于可以在数据稀少的情况下去靠近准确值。因此,在信息更难收集和处理的前计算机时代,贝叶斯仍然是人们试图把握稀有事件的不确定性时所能依赖的工具。除了通过对单词的使用偏好确定《联邦党人文集》匿名作者身份,以及在茫茫大西洋中寻找天蝎号核潜艇的位置这两个广为人知的事例之外,贝叶斯计算还用来估计过核电站发生重大事故的概率,预测火箭发射出现重大事故的概率等等。

贝叶斯主义是关于概率的哲学,它重新发问,概率是什么?频率主义认为的概率需要依靠事件重复发生的频率来计算。但是当重复量,也就是数据不足时,我们很难根据之前的规律准确预测未来。比如把之前事件的发生看做一组数列“1,2,4,8,16”,那么在简单的推理下,下一个出现的事件应该是32。但是当数字代表圆被圆周上2、3、4、5个点所连成的若干直线分成的份数时,当点数为6时,下一个出现的份数,也就是事件,应该是31,而不是32。


标签:概率,频率,公式,贝叶斯,应用,检测,主义,阳性
From: https://blog.51cto.com/u_15456086/5893377

相关文章