机器学习项目中不可忽视的一个密辛 - 大数定理、中心极限定理
1. 前言
0x1:概率论的起源
大数定律和中心极限定律是伴随着古典统计,古典概率论,函数分析,极限理论,现代概率论与数理统计这些理论一起发展起来的。科学家在提出和发展概率论理论体系的过程中,一个最大也是最根本的挑战就是,如何从理论上强有力地证明概率论是一个理论合理的数学理论,而不仅仅是基于大量的实际实验而得到的归纳假设,诚然,很多科学理论都是从科学实验里归纳总结得到的一般性推理,例如亚里士多德的重力理论,但是最终它们都必须被合理地嵌入在某个理论体系中,和其他理论互相推导成立,才能真正成为一门科学。
在概率论发展的初期,人们主要还是以实验归纳为主,人们发现,当大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。就像抛硬币一样,当我们不断地抛,抛个上千次,甚至上万次,我们会发现,正面或者反面向上的次数都会接近一半。除了抛硬币,现实中还有许许多多这样的例子,像掷骰子,最著名的实验就是泊松抛针实验。这些实验都像我们传达了一个共同的信息,那就是大量重复实验最终的结果都会比较稳定。那稳定性到底是什么?怎样去用数学语言把它表达出来?这其中会不会有某种规律性?是必然的还是偶然的?
17 世纪中叶,人们开始对机会性游戏的数学规律进行探讨。它的发展与数学史上一些伟大的名字相联系,如帕斯卡、费马、惠更斯、詹姆斯、伯努利、棣莫弗、拉普拉斯等。
1654 年,费马与帕斯卡的通信中关于分赌注问题的讨论被公认为是概率论诞生的标志。问题是这样的:
“两个赌徒相约赌若干局,谁先赢 s 局就算赢了,当赌徒 A 赢 a 局 (a < s),而赌徒 B 赢 b 局(b < s) 时,赌博被迫中止,应该怎样分配赌注才合理?”
在三年后,惠根斯亦用自己的方法解决了这一问题,并写成了《论赌博中的计算》一书,这就是概率论最早的论著,他们三人提出的解法中,都首先涉及了数学期望(mathematical expectation)这一概念,并由此奠定了古典概率的基础。
经过几百年的发展,大数定律体系已经很完善了,也出现了更多更广泛的大数定律,例如切比雪夫大数定律,辛钦大数定律,泊松大数定律,马尔科夫大数定律等等。正是这些数学家们的不断研究,大数定律才得以如此迅速发展,才得以完善。
在这篇文章中,笔者将尝试从时间线的维度,介绍几个核心的大数定理和中心极限定律的发展脉轮,并讨论其应用场景。
Relevant Link:
https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B
2. 伯努利大数定律(1713年)
自然科学的发展总是从简入难,从物理、生活中的日常现象发现规律,并进行归纳总结逐步发展起来的。
历史上首个极限定理是由瑞士数学家雅各布.伯努利(1654年-1705年),在其遗著中发表了概率论中的第一个极限定理——伯努利大数定理,即 “在多次重复独立的试验中,事件发生的频率有越来越稳定的趋势”。
这正是频率稳定性的定理形式,它的出现意味着概率论由建立走向发展的阶段。
0x1:数学公式定义
设 na 是n重伯努利试验中,事件A发生的次数,p是事件A在每次事件中发生的概率,则对任意的ε>0,有:
或
在n重伯努利试验中,设:
则 X1,X2,....,Xn 是相互独立同分布的随机变量,且Xi~B(1,p),i=1,2,...,n,其中 p=P(A)。
由伯努利大数定律知,当n充分大时,有如下等价近似公式:
A发生的频率
这是概率论第一个非常深刻的认识,当大量相互独立重复试验中,可以用某个事件A发生的频率来近似每次试验中事件A发生的概率。这就是伯努利大数定律的直观意义。
当n充分大时,频率与其概率能以任意接近的概率趋向于1。
因此实际中,只要试验次数足够多,可以用频率作为概率的估计。
同时伯努利大数定律也解释了概率存在的客观意义,即为什么“大数次”重复试验下,事件的概率是存在的,正是因为频率的这种稳定性,我们才意识到概率的存在,才有了概率论这门学科。
Relevant Link:
https://baike.baidu.com/item/%E4%BC%AF%E5%8A%AA%E5%88%A9%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B/7922139
3. 棣莫弗-拉普拉斯中心极限定理(1733年)
1730 年,法国数学家棣莫弗(1677年-1754年)出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。他使用正态分布取估计n(很大)时抛掷硬币出现正面次数的分布,即二项分布B(n,0.5)。这就是概率论中第二个基本极限定理的雏形。
将近80年后,拉普拉斯(1749年-1827年)在 1812 年出版的《概率的分析理论》中,首先明确地对概率作了古典的定义。他指出当n很大时,二项分布B(n,p)(0<p<1)都可以用正态分布逼近。所以后人称之为棣莫弗-拉普拉斯中心极限定理。
另外,拉普拉斯他又和数个数学家建立了关于正态分布及最小二乘法的理论。
0x1:数学公式定义
定理核心公式如下:
设随机变量序列X1,X2,..... 是一个独立同分布的随机变量序列(注意这是二项分布的前提假设),且Xi ~ B(1,p),i = 1,2,....,则对任意实数x,有:
仔细看这个公式,会发现几点:
- 分子就是二项分布随机变量序列的累加和,减去随机变量的期望np
- 分布就是二项分布的标准差
- 分子除分母的整个公式,可以看成是随机变量期望值标准化的过程
- 同时括号里的<=符号,表达说标准化的期望偏离0原点的概率,也即误差概率,这个偏离误差概率是符合正态分布的
德莫弗-拉普拉斯中心极限定理不仅在概率论发展的早期起过重要的作用,而且在工程实践中依然被大量使用,在大数据前提下,基于该定理的近似等价计算方法在复杂工程问题中非常方便。
0x2:由该定理得到二项分布的正态分布近似解
由二项分布的可加性知道
,因此我们有:
这就是二项分布的原始概率计算公式,精确的概率值理论上是可以精确算出的。
但是,实际问题中当n较大时,计算并不方便,这时候就需要借助极限、近似等价这2个数学工具来帮助我们简化计算。
泊松定理曾经告诉我们,当p ≤ 0.1时,可以用泊松分布作近似计算,这个近似等价其实已经很好了,但是这个假设还是有些局限,如果p比较大,则无法继续用泊松近似。
现在棣莫弗-拉普拉斯中心极限定理告诉我们,也可以用正态分布作近似计算,它的优点是不受“p≤0.1”的限制,只需n足够大。
由德莫弗 -拉普拉斯中心极限定理推得,如果随机变量Y~B(n,p),那么,当n较大时,有如下近似等价公式:
显然,棣莫弗-拉普拉斯中心极限定理是列维-林德伯格中心极限定理的特例,因为
服从二项分布,所以这个定理又称为二项分布的正态近似。
0x3:棣莫弗-拉普拉斯中心极限定理对伯努利大数定理的更细致证明
前面由伯努利大数定理知
,当n充分大时,可以用
作为p的近似,但是至于近似程度如何,伯努利大数定律没有给出。
中心极限定律对近似的程度进行了注释:
中心极限定理对频率趋近于概率的论证更为细致。
0x4:棣莫弗-拉普拉斯定理应用举例
1. 题目
一本20万字的长篇小说进行排版。假定每个字被错排的概率为10-5。试求这本小说出版后发现有6个以上错字的概率,假定各个字是否被错排是相互独立的。
2. 解题分析
显然,这道题符合二项分布,我们应该用二项分布公式来解题,但是注意这里n有20w,是一个比较大的数字,因此我们采用棣莫弗-拉普拉斯定义或者泊松定理来计算近似等价结果。
设错字总数为随机变量X ,X~B (200000,10^-5 ),np=2,
所以有正态分布近似等价结果:
以及泊松分布近似等价结果(λ=2):
Relevant Link:
https://en.wikipedia.org/wiki/De_Moivre%E2%80%93Laplace_theorem
4. 列维-林德伯格中心极限定理(1920年)
我们将棣莫弗-拉普拉斯定理推广到一般化的相互独立同部分随机变量中,即列维-林德伯格中心极限定理。列维(1886年-1971年)是法国数学家,对极限理论和随机过程理论做出了杰出的贡献,林德伯格(1876年-1932年)是芬兰数学家因中心极限定理而闻名于世。
0x1:数学公式定义
设X1,X2,... 是任意一个独立同分布的随机变量序列,且均值和方差存在(随机变量序列收敛),即:
则对任意一个x,-∞ < x < ∞,总有:
其中,Φ(x)是 N(0,1) 的正态分布函数。
上式也被称为列维 -林德伯格(Levy-Lindberg)中心极限定理。
由于:
因此,定理中的概率实际上是
的标准化随机变量的分布函数值,任意的概率分布函数都可以进行标准化。
列维-林德伯格中心极限定理告诉我们,不论X1,X2,... 原来服从什么分布,当n足够大时,总可以近似地认为:
或者
在实际问题中,若n较大,可以利用正态分布近似求得概率:
这在工程实践中特别有用。
0x2:公式的合理性分析
1. 微观少数样本的随机构成宏观统计意义上的有序
我们在讨论正态分布的时候,曾经阐述过正态分布存在的合理性。当一个变量,受到大量微小的,独立的随机因素(即X1,X2,... Xn)的累计影响时,这个变量一般服从正态分布,也可以反过来理解为,正是因为这些大量微小的,独立的随机因素(即X1,X2,... Xn)的累计影响,导致最终从宏观上呈现出正态分布的结果。中心极限定理正是这种直观经验的严格数学表达。
定理的条件要求随机变量相互独立并且服从同一分布。
这里相互独立意味着随机变量之间不相互影响;
同分布是指每个随机变量在随机变量序列的前n项部分和中的地位相同,也即每个随机变量对前n项部分和的影响都是微小的。
这就解释了自然界中一些现象受到许多相互独立且微小的随机因素影响,总的影响就可以看作服从或近似服从正态分布。
2. 高尔顿钉板实验
为了更好地阐明“微观少数样本的随机性”以及“宏观大数统计意义上的正态有序”这2个概念,我们来看一个历史上著名的例子,高尔顿钉板实验。
弗朗西斯·高尔顿(Francis Galton,1822年2月16日-1911年1月17日),英国科学家和探险家。他曾到西南非洲探险,因树立功绩而知名并被选为英国皇家地理学会会员,三年后又入选英国皇家学会,晚年受封为爵士。
他的学术研究兴趣广泛,包括人类学、地理、数学、力学、气象学、心理学、统计学等方面。他是查尔斯·达尔文的表弟,深受其进化论思想的影响,把该思想引入到人类研究。
他着重研究个别差异,从遗传的角度研究个别差异形成的原因,开创了优生学。他关于人类官能的研究开辟了个体心理和心理测验研究的新途径。
他在统计学方面也有突出的贡献,高尔顿在1877年发表关于种子的研究结果,指出回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。
下图是高尔顿钉板实验的示意图,实验过程如下:
每一圆圈点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗的水平位置恰好位于下一层的两颗正中间,总共有n排钉子,相当于做n次伯努利实验。
从入口处放进一个直径略小于两颗钉子之间的距离的小圆玻璃球,当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下,于是又碰到下一层钉子。如此继续下去,直到滚到底板的一个格子内为止。
把许许多多同样大小的小球不断从入口处放下,只要球的数目相当大,它们在底板将堆成近似于正态 的密度函数图形(即:中间高,两头低,呈左右对称的古钟型)。
来稍微分析一下小球下落的结果,小球堆积的形态取决于小球最终下落在底部隔板的位置的分布。设随机变量X为“小球最终下落在底部隔板中的位置”,X的概率分布由一系列的随机变量序列组成,即:
- Xi = -1:小球碰到第 i 排钉子后向左下落
- Xi = 1:小球碰到第 i 排钉子后向右下落
显然对单次实验(投掷小球)来说,小球会落在哪个方格Xi完全是随机的,几乎看不出什么规律,这就是所谓的“微观少数样本的随机性”,这也是概率论的精髓思想,表面随机的事物背后都蕴含着某种确定的统计规律性。
从概率分布的角度来看,显然有
,随机变量X表示最终小球下落的结果,是由所有随机变量序列累加得到的,和的分布计算很复杂。但是高尔顿经过试验发现,随着试验次数的增加,小球的堆积形态呈现出正态分布的形态。这就是所谓的“宏观统计意义上的有序性”。
经过叠加,原本取值任意一点的可能性由相同变为了向中心位置聚拢,这和我们的直觉是多么不同。
Relevant Link:
https://baike.baidu.com/item/%E9%AB%98%E5%B0%94%E9%A1%BF%E9%92%89%E6%9D%BF/6765470
https://baike.baidu.com/item/%E6%9E%97%E5%BE%B7%E4%BC%AF%E6%A0%BC%E5%88%97%E7%BB%B4%E5%AE%9A%E7%90%86/10388983?fr=aladdin
5. 辛钦大数定律(相互独立同部分大数定律)
辛钦大数定律继承并发展了伯努利大数定律。
辛钦大数定律面向的是一般化的相互独立同分布的随机变量情况,并不局限于伯努利随机试验。伯努利大数定律是相互独立同分布大数定律的特例,这点我们接下来会讨论。
0x1:数学公式定义
则随机变量序列 X1,X2,....,Xn 相互独立同分布(任意两个随机变量线性无关),若均值存在,即
则对任意ε>0,有:
也可以表示成:
在许多实际问题中,方差存在不一定满足,苏联数学家辛钦(1894年-1959年)证明了相互独立同分布情形下,仅期望存在、方差不存在时结论仍然成立,因此相互独立同分布大数定律又称为辛钦大数定律。
0x2:算数平均值法则的理论依据
相互独立同分布(辛钦)大数定律是我们日常生活中经常使用的算术平均值法则的理论依据。
为了精确称量物体的质量μ,可在相同条件下重复称n次,结果可记为x1,x2,....,xn。可看做n个相互独立同分布的随机变量(X1,X2,....,Xn)的一次观测值。
X1,X2,....,Xn服从同一分布,它们共同的期望记为物体的真实质量μ。
由相互独立同分布(辛钦)大数定律可知,当n充分大时有:
。这意味着
逐渐趋向于μ,也即随机变量的算数平均值具有稳定性。
在物理实验中我们就是采用这种方法测得物体质量的,例如,为得到一颗钻石的真实质量,我们测n次取其算法平均值即可。
算法平均值法则提供了一条切实可操作的途径来得到物体的真实值。大数定律从理论上给出了这个结论的严格证明,而不是仅仅靠直觉。
Relevant Link:
https://baike.baidu.com/item/%E8%BE%9B%E9%92%A6%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B/7922188
6. 切比雪夫大数定律
切比雪夫大数定律是对伯努利大数定律和辛钦大数定律的继承和发展。是由俄国数学家切比雪夫(1821年-1894年)发表的。
切比雪夫大数定律是面向所有两两不相关且方差一致有界的随机变量,并不要求随机变量独立同分布。相互独立同分布的大数定律是切比雪夫大数定律的特例,因为切比雪夫大数定律中的
在相互独立同分布大数定律的条件下为μ。
切比雪夫大数定律比较理论化,在讨论具体的数学公式之前,我们需要先介绍几个数学概念。
0x1:切比雪夫(Chebyshev)不等式
随机变量X的取值总是围绕着其期望变动,若X的分布已知时,可以计算事件
的概率。切比雪夫不等式给出了任意概率分布X时,
的上限计算公式。
设随机变量X的数学期望E(X)及方差D(X)存在,则对于任意的ε>0,有:
事件
理解为:“随机变量X关于其期望发生了较大偏差”,切比雪夫不等式给出了此事件的概率上界,它与方差成正比:
- 方差越大,此上界就越大
- 方差越小,X在其期望附近取值的密集程度就越高,那么远离期望的区域的概率上界就越小
我们对切比雪夫公式进行一个变换使其更好地体现出“概率和偏差的反比关系”,
,令
,则有,
从上式中,可以很清楚看到,X偏离E[X]两个标准差距离的概率小于1/4。
切比雪夫不等式进一步说明了方差的概率意义,即方差是随机变量取值与其中心位置的偏离程度的一种度量指标。
值得注意的是,显然利用切比雪夫不等式估计“随机变量X关于其期望μ发生了较大偏差”的概率是粗糙的,引入切比雪夫不等式的另一个目的是,它是证明大数定律的工具之一。
0x2:依概率收敛
在前面第二小节讨论到伯努利大数定律的时候,曾经提到频率的稳定性。
设随机事件A的概率P(A)=p,在n重伯努利试验中事件A发生的频率为fn(A),当n很大时,fn(A)将与p非常接近。
自然会想到,应该用极限概念来描述这种稳定性,但是不能简单地使用高等数学中数列的极限,因为fn(A)本质上是一个随机变量,它随着不同的n次试验可能取不同的值,这就需要对随机变量序列引进新的收敛性定义。
设X1,X2,... 是一个随机变量序列,如果存在一个常数c,使得对任意一个ε>0,总有:
那么,称随机变量序列X1,X2,... 依概率收敛于c,记作
依概率收敛性的直观意义是,当n足够大时,随机变量Xn几乎总是取接近于常数c的值。
利用求对立事件的概率计算公式,依概率收敛性也可以等价地表示成:
一般地,Xi 不一定相互独立,也不一定服从0-1分布,把具有这种形式的依概率收敛性的结论统称为大数定律,即一般化的大数定律。
0x3:切比雪夫大数定律数学公式
设 X1,X2,... 是两两不相关(注意两两不相关并不是独立同分布,只是两两不线性相关)的随机变量序列。如果存在常数c,使得 D(Xi)≤c,i=1,2,...,那么有:
由切比雪夫不等式推得,对任意一个ε>0,当n → ∞时,有:
要特别注意的是,切比雪夫大数定律的主要条件是“方差有界”。
在特殊条件下,即随机变量相互独立同分布,即E(Xi) = μ,i=1,2,... ,则切比雪夫大数定律等价于辛钦大数定律,即:
0x4:三个大数定律之间的条件关系
三个大数定律条件是不同的:
- 切比雪夫大数定律不要求随机变量序列同分布,甚至不要求相互独立,只要两两不线性相关、方差一致有界即可
- 辛钦大数定律要求随机变量相互独立且同分布,但不要求方差存在,仅期望存在即可
- 努利大数定律要求随机变量相互独立且同分布,但限定于伯努利两点分布
7. 大数定律和中心极限定理的异同
0x1:中心极限定理和大数定律的区别
中心极限定理是随机变量和的分布收敛到正态分布的一类定理,而随机变量的和又和随机变量的均值有密切的联系,而大数定律论证的主要部分就是随机变量均值的收敛性特点,因此,中心极限定理和大数定律之间有千丝万缕的联系。
- 大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道
- 中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差
- 综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小
0x2:中心极限定理在概率论中的核心地位
不同的中心极限定理的差异就在于对随机变量序列做出了不同的假设,由于中心极限定理的有力支撑使正态分布在概率论与数理统计中占据了独特的核心地位,它是20世纪初概率论研究的中心内容。
在大数n的情况下,所有概率分布函数都会收敛到正态分布这个中心极限的形式上。同时各个概率分布函数之间也存在互相推导的关系,这也是为什么GMM从理论上可以拟合任意复杂的概率分布函数的原因。
每当这时,笔者就非常喜欢祭出一张非常出名且有趣的图:
8. 大数定律的理论应用
大数定律支撑了很多应用理论的发展,例如:
- 1)算术平均法则
- 2)频率估计概率方法
- 3)数理统计中参数的点估计思想,这也是很多传统机器学习模型训练的理论支撑
- 4)中心极限定理在数理统计的区间估计与假设检验问题中的应用
9. 大数定律存在的一个实验例证
0x1:泊松随机变量的收敛 - 在大数N时,大数定理普遍存在的一个例证
下面是三个不同的泊松随机变量在大数定理上的实例,用三个不同的曲线表示。 三个泊松分布的参数
标签:plt,定律,定理,密辛,评论,大数,随机变量 From: https://blog.51cto.com/u_15775105/5957237