机械学习—零基础学习日志（概率论总笔记1）

概率论的起源

在历史上有明确记载的最早研究随机性的数学家是帕斯卡和费马。帕斯卡就是最早发明机械计算机的那位数学家，他并不是赌徒，但是他有些赌徒朋友，那些人常常玩一种掷骰子游戏，游戏规则是由玩家连续掷4次骰子，如果其中没有6点出现，玩家赢，如果出现一次6点，则庄家赢。

在这个赌局中，由于双方的赢面差不多，不是大家能够凭直觉判断准的，因此玩家并不觉得吃亏，甚至还觉得赢面大一些。但是，只要时间一长，庄家总是赢家，玩家注定是输家。1654年，一位赌徒朋友就向帕斯卡请教，是否能证明庄家的赢面更大？

帕斯卡经过计算，发现庄家的赢面还真是稍微大一点，大约是52%vs48%。大家不要小看这多出来的四个百分点，累积起来，能聚敛很多财富。在研究赌局概率的过程中，帕斯卡和费马有很多通信，今天一般认为他们二人创立了概率论。

概率论的发展

著名的启蒙学者伏尔泰是当时最精通数学的人之一，他算出了法国政府彩票的漏洞，找到了一些只赚不赔的买彩票的方法，赚了一辈子也花不完的钱。伏尔泰一生没有担任任何公职，或者做生意，但是从来没有为钱发过愁。这让他能够专心写作，研究学问。

从18世纪末到19世纪，数学家们对概率论产生了浓厚的兴趣，像法国的伯努利、拉普拉斯和泊松等人，德国的高斯，以及俄罗斯的切比雪夫和马尔可夫等人，都对概率论的发展有很大的贡献。经过他们共同的努力，概率论的基础理论逐渐建立起来，很多实际的问题也得到了解决。

在这些人中，划时代的人物是拉普拉斯。拉普拉斯是一位了不起的科学家，但是却又热衷于当官。他有一个著名的学生叫做拿破仑，靠这层关系他后来当上了政府的部长。不过，他的政绩不太好，因此拿破仑讲，他是一个伟大的数学家，但却是一个不太称职的部长。不过，拉普拉斯一生在科学上的贡献还是非常大的，比如关于宇宙构成的星云说，就是由他完成的。

当然他最为人所知的是以他的名字命名的拉普拉斯变换。在概率论方面，拉普拉斯定义了什么是概率，以及它该如何计算。在拉普拉斯之前，人们对“有可能”和“概率大”是分不清的。其实你今天问一些人，买彩票中彩的概率是多少？他依然会说50%，因为只有中彩和不中彩两种情况。

拉普拉斯是如何定义概率的呢?他先定义了一种可能性相同的基本随机事件，也称为单位事件。

古典概率计算公式

每一种不可再分，都是单位事件。单位事件的概率称为原子概率

拉普拉斯对于概率论的描述其实有不少漏洞，比如在现实中是否存在着可能性完全相等的单位事件，这本身就是一个大问号。

为了说明一个随机事件A的概率，用了等可能性的单位事件这个说法。但是在没有概率的定义之前，等可能性又从何谈起？

现代概率论发展

统计学的规律只有经过了大量随机试验才能得出，也才有意义。但是随机试验得到的结果，和我们用古典概率算出来的结论可能是两回事。不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果，你做其它随机试验也是如此。

抛硬币，每次正面朝上的概率是1/2；掷骰子，事件A是“六点朝上”，它出现的概率每次也是1/6。当然事件B就是其它点朝上，每次的概率是5/6。在一般情况下，出现A的概率是p，B的概率是1-p。这类试验后来被称为伯努利试验。

如果我们把从0次正面朝上，也就是说全部是背面朝上，到10次全是正面朝上的可能性的图像画出如下。

中间高两头低的曲线，满足这种曲线的概率分布，被称为伯努利分布，也称为二项式分布，因为每一次试验的结果有两种。

所有有一个重要结论：有关不确定性的规律，只有在大量随机试验时才显现出来，当试验的次数不足，它则显现出偶然性和随意性。

第一个概念就是平均值或者叫做数学期望值，也就是N*p，因为概率是p的事件进行N次试验后，平均发生的次数，也是最可能发生的次数，好，这是N*p。接下来我们再用平方差（简称方差）这个概念来描述曲线的“鼓”与“平”。

方差其实是对误差的一种度量，既然是误差，就要有可对比的基点，在概率中，这个基准点就是数学期望值（简称期望值），也就是我们通常说的平均值。

如果我们做10次试验只出现4次正面朝上的情况，就有了误差，误差是1。如果9次正面朝上，那么误差就大了，就是4。好了，接下来我们就把各种误差，和产生那些误差的可能性一起考虑，做一个加权平均，算出来的“误差”就是平方差。

之所以使用“平方”这个词，是因为计算方差这种误差时用到了平方，为了进一步方便误差和平均值的比较，我们通常会对方差开根号一次，这样得到的结果被称为标准差（严格来讲，方差开根号后和标准差还是略有差别，但是这个差别很小，为了便于理解，我们就假定标准差是方差开根号的结果）。

什么是理想呢？我们进行N次伯努利试验，每一次事件A发生的概率为p，N次下来发生了N*p次，这就是理想。那么什么是现实呢？由于标准差的影响，使得实际发生的次数严重偏离N*p，这就是现实。

就是越是小概率事件，你如果想确保它发生，需要试验的次数比理想的次数越要多得多。

从生活的角度来看，提高单次成功率要远比多做试验更重要。

很多人喜欢赌小概率事件，觉得它成本低，大不了多来几次，其实由于误差的作用，要确保小概率事件发生，成本要比确保大概率事件的发生高得多。

什么是泊松分布？

泊松分布是这样定义的：如果随机事件A发生的概率是p，进行n次独立的试验，恰巧发生了k次，则相应的概率可以用这样一个公式来计算：

假如说公司门口有10个停车位，公司有100个上班的员工，每个员工早上8点钟之前开车来上班的概率是10%。当然，正如我们昨天所说，他们每天什么时候来公司不仅是随机的，而且彼此无关，不存在两个人商量之后一起到的情况，而且也不存在头一天来晚了没抢到停车位，第二天早到的可能性。

现在，你是这家公司的新员工，早上8点整开车到了公司，请问停车场还有车位的概率是多大？

根据泊松分布的计算，积累的概率是0.46.

很多人投资总是失败，判定一件事发生的可能性总是有很大的误差，一个重要的原因就是靠直觉和有严重漏洞的逻辑，而不是靠严密的数学逻辑和推导。

生活启发：应对随机性，需要的冗余比你想的要大。

主要参考：《数学通识50讲》吴军 ——得到，概率论章节

墙裂推荐大家去学习《数学通识50讲》，吴军老师讲解得超级超级好！

标签：误差,概率,拉普拉斯,机械学习,试验,事件,日志,概率论
From： https://blog.csdn.net/AI_freshfish/article/details/141720065