0
要问现代人最难逃离哪种数学,概率与统计必须拥有姓名。
“学者不能离开统计而究学,实业家不能离开统计而执业,政治家不能离开统计而施政。”统计应用之广,横跨文理,纵贯研究与实践。人们不断谈论“根据数据进行决策”“通过数据阐明情况”“观察数据得出结论”……其中的“数据”常常就是统计数据。难怪英国学者威尔斯曾有预言,统计思维方法会成为“效率公民必备能力”,而陈希孺院士则称其为“现代人知识结构中应具备的成分”。
那么,统计思维究竟能教给我们什么?具备统计思维的人会如何看问题呢?
1
无惧变化,看到机遇
陈希孺:如果你要求找出一个百分之百确切的规律,那就什么也做不成。
我们生活在一个充满偶然和未知的世界。今天出门会不会堵车?最近的工作能否顺利完成?未来五年可不可以升职加薪?这些问题都无法在事前得到绝对准确的答案,因为我们无法预知可能遇到的一切偶然。
人们常说做事要“准备充分”,或者说要有“万全之策”,但在现实生活中这是不可能的。一味追求万无一失,结果只能是错失良机。就如陈希孺院士所说,“如果你要求找出一个百分之百确切的规律,那就什么也做不成。”
当然,硬着头皮碰运气同样不可取。正确的做法是去了解“机遇”,而概率与统计,恰恰就是“机遇(机会)的数学”。
可以说,概率是机遇数量化的理论基础,而统计则是相应的应用。它们虽然无法提供万全之策,却可以让你做到心中有数。正因如此,一个具有统计思维的人,常常能够豁达地看待多变的世界,不容易被繁枝末节拖入焦虑。当然,这样的心境背后是具体的方法和视角,我们很快就会看到。
2
高效考察,以小见大
阿瑟·鲍莱:算术要达到精确,统计则要完成估测。
我们为什么觉得世界充满未知?一个重要的原因在于,在产业和环境面前,人的力量是渺小的。比如,我们想确定一大批货物的质量,但我们不可能化验每一个产品。再比如,我们想了解某个物种在一片大陆的生存情况,但我们不可能检查每一只动物。
当考察对象的数量格外庞大的时候,我们需要以小见大:抽取一部分对象进行研究,再通过科学的分析来推测整体。这背后就是抽样的智慧。
抽样绝不是随便抽签这么简单,毕竟,以小见大一不小心就会变成以偏概全。如何确定样本至少能够大致反应整体?这是第一个大问题。理论上很漂亮的方法,到了实际工作中能不能顺利实施?这是第二个大问题。即便以上两个问题都得到了解决,统计学家也不得不承认,样本并不等同于等比例缩小的整体,调查最终依然需要考虑误差。
这其中的学问之多,从拉普拉斯的早期实践到凯尔的“代表性抽样”,再到鲍莱的“随机抽样”,抽样经历了百年才真正被人们所接受。而统计学先驱之所以坚持研究抽样,并不是因为不知道其中的风险,而是他们不愿让人类受限于自身的渺小。这既是一种思想,也是一种精神,是我们能够从统计学中得到的力量。
3
试验的讲究,实践的思考
罗纳德·费希尔:计划试验的最佳时机是在做完试验以后。
除了直接考察已有的对象,人们还可以通过试验来探索世界。试验听上去似乎是受控的,因而是比较方便的,但实际情况并没有那么简单。
以称重为例,读数的差异不一定完全是物品本身造成的,也可能是因为它们使用的称不一样,或者外包装重量不一,等等。这一类问题带来的是系统误差。就算没有系统误差,我们也不能保证试验数据百分之百准确,因为还有无处不在随机误差。
正如抽样不是随便抽签,试验也不是随便试试。事实上,统计学中有一个分支,就叫试验设计,专门研究如何安排试验,尽可能地消除系统误差、缩减随机误差。我们经常听到的“双盲试验”“单因素试验”“多因素试验”都包含统计学的智慧。
试验本身是一种有意为之的探索实践,在实验室外,试验的思想依然有实用之处。在日常生活中,尝试了相同的事,拥有统计思维的人和没有统计思维的人可能得出完全不同的结论。前者会思考系统误差和随机误差,而不是盲目地奔向结论。可以说,这是一种有效归因的能力,直接影响了一个人能否从经历中收获价值。
4
知其然,思其所以然
弗雷德里克·莫斯特勒:有了统计数字,撒谎很容易,没有统计数字,撒谎更容易。
统计学能够揭示不同量之间的关系。有时这种数字关系会先浮现,接下来才是其背后的原理。举个例子:孟德尔所提出的遗传规律基本是依照统计数字推断的,几十年后,基因的存在才在分子水平上得到证实。
这其中至少包含两个道理,第一,统计规律能反映真实的因果关系,第二,统计规律不能代替真实的因果关系。这就是统计学的边界。
统计学可以应用到很多领域,但它不负责解释所应用领域的原理,统计结果需要回归具体学科情境。换句话说,如果不考虑具体情况,只看统计规律,人们很可能得出非常荒谬的结论。比如,曾有人用统计数据证明随着海盗不断减少,全球变暖日益严重。人们当然不可能因此去为海盗增加就业。
这件事是带有恶作剧色彩的,但它确实体现了错误使用统计学的后果。现代人日常接触到的信息往往含有大量的统计数据,其中也有很多是背离事实的,甚至有可能是刻意炮制的。但这样的信息并不能蒙蔽了解统计学的人。正因为清楚统计学的边界,拥有统计思维的人可以从错综复杂的信息中剔除“望数生义”的内容,留下真正具有参考价值的结论。
5
使用经验,革新经验
乔治·博克斯:所有的模型都是错的,但有些是有用的。
在现实世界里,我们所遇到的很多事是不可重复的。你可以用同样的工作方式去应对同类项目,但因为外界的变化,你可能再次获得成功,也可能遭遇失败。换句话说,经验的可靠性不是绝对的。
除了分析事实,概率与统计也常常用于预测未来。这种预测的基础当然是过去的数据和趋势,从某种角度看,这也是在使用经验。那么统计学如何看待经验的可靠性呢?
有很多统计学家认为,人们不可能做出完美的模型,比较切合实际的方案就是充分地使用经验,同时吸纳新的经验。以此为基本思路,人们从贝叶斯的条件概率发展出了一整套方法,现在已经广泛应用在算法推荐、人工智能、天气预报等领域。我们有时发现一些智能产品一开始不尽人意,但越用越好用,这背后往往是贝叶斯方法的魔力。
这就是统计学的答案:无惧试错,让经验保持动态和活力。经验毕竟包含了我们对过去情况的总结,弃之不用既不现实,也不明智。更重要的是,很多人之所以会受困于经验,根本原因在于停止了积累和反思,让经验成了封闭的城池。而大胆使用经验,不断革新经验,则是贝叶斯思想给人们上的重要一课,其中既有放眼未来的智慧,也有规划人生的方法。
写在最后
陈希孺院士曾强调概率与统计研究的是偶然性,而对偶然性的认识是人文素质的一部分。也就是说,统计思维所影响的,不仅是一个人的数理能力,还有他看待万事万物的视角。因此,对这门学科的学习不应该停留在工具层面。抱着这样的想法,陈希孺院士为年轻的朋友们带来了这本书——《机会的数学:统计学入门》
作者:陈希孺
- 通俗讲述概率论基础概念
- 亲切传授分析思维与方法
- 精妙诠释统计学本质内涵
用统计思维,在不确定世界中把握成功的机遇
本书是由陈希孺院士创作的统计学入门科普读物。书中通过讨论“偶然性”“机遇”等生活中常见的现象,通俗地介绍了概率和统计的基础知识,讲解了收集和分析数据的基本思路。此外,作者详细阐述了数理统计分析的思维与方法,并结合实例讲解了“抽样调查”“试验设计”的原理与统计方法选择的技巧,以帮助读者加深对统计学的理解,提高统计分析的思维能力。本书可作为一般读者的统计学入门参考书,也适合相关专业的学生、教师和科研人员阅读学习。