首页 > 其他分享 >统计数据的陷阱

统计数据的陷阱

时间:2023-06-27 18:32:35浏览次数:40  
标签:安慰剂 肺癌 统计数据 实验 吸烟 陷阱 新药


统计数据的陷阱_编程语言

和统计数据打的交道多了,什么见鬼的事情都能遇上。统计数据显示,在铀矿工作的工人居然与其他人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害么?

当然不是!其实,统计数据本身并没有说谎,铀矿工人的寿命真的不比普通人低,难就难在我们如何拨开数据的外表,从中挖掘出正确的信息。事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就长一些,正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的“伪独立性”。这种现象常常被称为“健康工人效应”。

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相同。事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性。

有虚假的独立性数据,就有虚假的相关性数据。统计数据显示,去救火的消防员越多,火灾损失越大。初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正因为火灾损失大,才会有很多人去救火。因果关系弄颠倒了。数据只能显示两件事情有相关性,但并不能告诉你它们内部的逻辑关系。

事实上,两个在统计数据上呈现相关性的事件,有可能根本就没有因果关系。统计数据表明,冰淇淋销量增加,鲨鱼食人事件也会同时增加。但这并不意味着,把冰淇淋销售点全部取缔了,就能减小人被鲨鱼吃掉的概率。真实的情况则是,这两个变量同时增加只不过是因为夏天来了。统计数据显示,足球队的获胜率,竟然与队员的球袜长度成正比。难道把队员的球袜都换长一些,就能增加进球数了吗?显然不是。数据背后真正的因果关系是,球队的获胜率和队员的球袜长度都与队员的身高呈正相关,这导致了获胜率与球袜长度之间表现出虚假的相关性。

类似的例子还有很多。统计数据表明,手指越黄的人,得肺癌的概率越大。但事实上,手指的颜色和得肺癌的概率之间显然没有直接的因果联系。那么为什么统计数据会显示出相关性呢?这是因为手指黄和肺癌都是由吸烟造成的,于是又营造出一种虚假的相关性。

读到这里,大家脑子里或许会产生这么一个颠覆性的念头:根据同样的道理,我们又凭什么说吸烟会致癌呢?万一吸烟和肺癌也都是由另外一个东西同时导致的怎么办?

其实,要想知道吸烟与癌症之间究竟是否有因果联系,方法本来很简单:找一群人随机分成两组,规定一组抽烟一组不抽烟,十几年后再把这一拨人找回来,数一数看是不是抽烟的那一组人患肺癌的更多一些。这个实验方法本身是无可挑剔的,但它太不道德了,因此我们只能考虑用自然观察法,选择一些本来都不吸烟的健康人进行跟踪观察,然后呢,过一段时间这拨人里总会出现一些失意了、堕落了犯上烟瘾的人,于是随着时间的流逝这帮人自然而然地分成了可供统计观察的两组人。注意,这里“是否吸烟”这一变量并不是通过随机化得来的,它并没有经过人为的干预,而是自然区分出来的。这是一个致命的缺陷!统计结果表明,犯上烟瘾的那些人得肺癌的几率远远高于其他人。这真的能够说明吸烟致癌吗?仔细想想你会发现这当然不能!原因恰似之前提过的例子:完全有可能是因果关系颠倒了,或者某个第三方变量同时对“爱吸烟”和“患肺癌”产生影响。1957年,费希尔(Fisher)提出了两个备选理论:癌症引起吸烟(烟瘾是癌症早期的一个症状),或者存在某种基因能够同时引起癌症和烟瘾。

现实中的统计数据往往会表现出一些更加诡异复杂的反常现象,带来更多意想不到的麻烦。辛普森(Simpson)悖论是统计学中最有名的悖论:各个局部表现都很好,合起来一看反而更差。统计学在药物实验中的应用相当广泛,每次推出一种新药,我们都需要非常谨慎地进行临床测试。但有时候,药物实验的结果会匪夷所思。假设现在我们有一种可以代替安慰剂的新药。统计数据表明,这种新药的效果并不比安慰剂好:


有  效

无  效

总 人 数

新药

80

120

200

安慰剂

100

100

200

简单算算就能看出,新药只对40%的人有效,而安慰剂则对50%的人有效。新药按理说应该更好啊,那问题出在哪里呢?是否因为这种新药对某一类人有副作用?于是研究人员把性别因素考虑进来,将男女分开来统计:


男性有效

男性无效

女性有效

女性无效

新药

35

15

45

105

安慰剂

90

60

10

40

大家不妨实际计算一下:对于男性来说,新药对高达70%的人都有效,而安慰剂则只对60%的人有效;对于女性来说,新药对30%的人都有效,而安慰剂则只对20%的人有效。滑稽的一幕出现了:我们惊奇地发现,新药对男性更加有效,对女性也更加有效,但对整个人类则无效!

这种怪异的事屡见不鲜。曾有一个高中的师弟给我发短信,给了我两所大学的名字,问该填报哪个好。我考虑了各方面的因素,甚至非常认真地帮他查了一下两所大学的男女生比例,并且很细致地将表格精确到了各个院系。然后呢,怪事出现了:A学校的每个院系的女生比例都比B学校的同院系要高,但合起来一看就比B学校的低。当然,进错了大学找不到女朋友是小事,但医药研究需要的是极其精细的统计实验,稍微出点差错的话害死的可就不是一两个人了。

上面的例子再次告诉我们,统计实验的“随机干预”有多么重要。从上面的数据里我们直接看到,这个实验的操作本身就有问题:新药几乎全是女性在用,男性则大都在用安慰剂。被试者的分组根本没有实现完全的随机化,这才导致了如此混乱的统计结果。不难设想,如果每种药物的使用者都是男女各占一半,上述的悖论也就不会产生了。当然,研究人员也并不笨,这么重大的失误一般还是不会发生的。问题很可能出在一些没人注意到的小细节上。比如说,实验的时候用粉色的瓶子装新药,用蓝色的瓶子装安慰剂,然后让被试人从中随机选一个来用。结果呢,女孩子们喜欢粉色,选的都是新药;男的呢则大多选择了蓝瓶子,用的都是安慰剂。最后,200份新药和200份安慰剂正好都发完,因此不到结果出来时,就没有人会注意到这个微小的性别差异所带来的统计失误。

当然,上面这个药物实验的例子并不是真实的,一看就知道那个数据是凑出来方便大家计算的。不过,永远不要以为这种戏剧性的事件不会发生。《致命的药物》一书详细披露了20世纪美国的一次重大药害事件,其原因可以归结到药物实验上去。人们推测,事故发生的原因就与一些类似的统计学现象相关。

这些离奇的统计学现象有时会让人感到恐慌:连统计数字也不可靠了,还有什么能真实地反映这个世界运转的规律呢?


标签:安慰剂,肺癌,统计数据,实验,吸烟,陷阱,新药
From: https://blog.51cto.com/u_15767091/6564863

相关文章

  • java陷阱之数据库主从
    现象客户遇到工单缺少描述,查询日志写入描述报错,但那是工单又正常生产  原因先写入工单再查询工单实时性要求比较高的不能走从库,还有就是service层方法命名不规范,不点进去看根本不知道走从库,如果要走从库应该带上Slave后缀,查询缓存也一样带上cachefindProviderIdB......
  • 逍遥自在学C语言 | 指针陷阱-空指针与野指针
    前言在C语言中,指针是一种非常强大和灵活的工具,但同时也容易引发一些问题,其中包括空指针和野指针。本文将带你了解这两个概念的含义、产生原因以及如何避免它们所导致的问题。一、人物简介第一位闪亮登场,有请今后会一直教我们C语言的老师——自在。第二位上场的是和我们......
  • 读书《你能写出好故事:写作的诀窍、大脑的奥秘、认知的陷阱》
     作者简介作者丽萨·克龙(LisaCron),现任加州大学洛杉矶分校写作项目的老师,她毕业于加州大学伯克利分校,在出版业、电视业工作多年,也是纽约华纳兄弟电影公司、洛杉矶威秀电影公司等的故事顾问。擅于写故事,尤其擅于指导被人讲故事。坏故事的特点好故事的特点我不知道谁是主人公。(没......
  • Web自动化测试中的最佳实践和常见陷阱
    在现代软件开发中,Web自动化测试已经成为保证软件质量和提高开发效率的重要手段之一。然而,仅凭自动化测试工具和技术并不足以确保成功。下面我们将介绍一些Web自动化测试的最佳实践和常见陷阱,帮助您避免一些常见的错误和困难。首先,让我们来看一些Web自动化测试的最佳实践。首要问题......
  • Mysql - 统计数据
    QA统计数据是做什么的?为了解释器在计算代价时,选择最优的方案.这个值如果与实际值差距过大,会导致执行顺序的变更.统计数据有哪些?对表的统计数据-mysql.innodb_table_stats对表索引的统计数据-mysql.innodb_index_stats统计数据存在哪?有两种方式,一种存在磁盘,一种存在......
  • 客户案例:如何让企业员工远离网络钓鱼邮件陷阱?
    客户背景某大型餐饮企业是一家在全国范围内拥有多家连锁店的知名品牌,以优秀的产品和服务质量,严格的质量控制和管理体系,以及开创性的营销策略,赢得了广泛的客户认可和信任。而餐饮企业往往拥有多个分支机构和门店,员工数量较多且流动性大,二次认证等账号保护手段无法推行,此外员工安全意......
  • 记录--7 个沙雕又带有陷阱的 JS 面试题
    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助为了保证的可读性,本文采用意译而非直译。在JS面试中,经常会看到一些简单而又沙雕的题目,这些题目包含一些陷阱,但这些在我们规范的编码下或者业务中基本不会出现。有些面试官就是这样,不专注于制定代码的标准和规范......
  • c语言的几个陷阱和代码例子
    数组越界:intarr[3]={1,2,3};arr[3]=4;//数组越界for(inti=0;i<=3;i++){printf("%d\n",arr[i]);//数组越界}在上述代码中,由于数组下标从0开始,arr[3]越界访问了数组最后一个元素的位置,此时程序可能会崩溃或者产生其他不确定的结果;另外在循环中因......
  • 众惠生活:避开传销陷阱,我们在努力!
    传销是一种利用网络、传媒等手段进行组织、发展的金字塔式的骗局,是一种非法的赚钱方式。在传销活动中,一般是通过招收下线,向上线领导交纳入门费、消费等费用所得到的奖金,最终构成金字塔结构。虽然传销活动被法律和舆论严格禁止,但是仍有一些人因为贪图利益而陷入其中。因此,我们要积极......
  • 【重学C++】02 脱离指针陷阱:深入浅出 C++ 智能指针
    文章首发【重学C++】02脱离指针陷阱:深入浅出C++智能指针前言大家好,今天是【重学C++】系列的第二讲,我们来聊聊C++的智能指针。为什么需要智能指针在上一讲《01C++如何进行内存资源管理》中,提到了对于堆上的内存资源,需要我们手动分配和释放。管理这些资源是个技术活,一不小......