正态分布——“牛而B之”

1 问题：什么是正态分布，为什么这么出名和重要？

1.1 名气大

　　为什么叫“正态分布”，也有地方叫“常态分布”，这两个名字都不太直观，但如果我们各取一字变为“正常分布”，就很白话了，而这正是“正态分布”的本质含义，Normal Distribution。它太常见了，基本上能描述所有常见的事物和现象：正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢？就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例，服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动，特别矮和特别高的都比较少见。

　　你可能不禁要问，这是为什么？我们认为，这其实同质、变异的概念相关。因为我们研究的对象具有同质性（比如都是成年的中国男子），所以其特征往往是趋同的，即存在一个基准；但由于个体变异的存在（当然变异不会太大），这些特征又不是完全一致，所以会以一定的幅度在基准的上下波动，从而形成了中间密集，两侧稀疏的特征。

连续型随机变量研究区间概率

　　了解了正态分布的基本思想，我们来看看实际应用中我们需要掌握的要点。首先，正态分布属于“连续型随机变量分布”的一类。我们知道，对于连续型随机变量，我们不关注“点概率”，只关注“区间概率”，这是什么意思？

　　我们看这个例子，假定随机变量X指是“北京市成年男子的身高”，理论上它可以取任意正数，所以我们把它当做一个连续型随机变量（连续型变量，就是指可以取某一区间或整个实数轴上的任意一个值的变量）来看待。这里，我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少，这就是所谓的“点概率”。更极端一点，让随机变量Y是[0,1]这个区间上的任意一点，那么Y的取值有多少个呢？无数多个，我们数不清楚，所以Y 取某一个具体的值的概率是1除以无数，即可以看做是0。于是，这里透露一个很重要的结论：连续型随机变量取任意某个确定的值的概率均为0。因此，对于连续型随机变量，我们通常不研究它取某个特定值的概率，而研究它在某一段区间上的取值，比如身高在1.70～1.80的概率。

概率密度函数（PDF Probability Density Function）

　　对于初学者来讲，“概率密度”可能是最不友好的一个概念，直接谈概率不行吗，好好的为什么要生出一个“密度”？的确，没有太多数理基础，这个概念着实不太好理解。虽然文字和数学公式上你可能感觉很陌生，但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。前面我们讲了区间概率，这里你就可以通过区间的角度来理解概率密度曲线：曲线越高，也就代表着这个区间的数据越密集，简单理解成在同样大小的房子里，这个房间的人数更多、更挤。除此之外，另一个关于概率密度函数的重要知识点是，积分（这里简单理解为“密度曲线下面积“即可）等于概率。随机变量X在某个区间比如（a，b）即a<X<b的概率，就是概率密度曲线在这个区间下的面积，数学上的表达就是密度函数在区间（a， b）上的积分。所以，概率的大小就是“概率密度函数曲线下的面积”的大小，这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”。

　　下图中的三条曲线f(x)，就是概率密度函数，各种形式的概率就是相对应的曲线下面积。这里，数学基础不太好的同学不用特别深挖积分的计算过程，但对这三张图与对应的概率表达形式，同学们要熟知。

均数和标准差

　　前面说对于正态分布的概率密度函数以及积分不用特别关注，那真正需要关注的是什么呢？就是均数和标准差。这里需要明确的是，一旦谈及正态分布，我们首先要想到它的两个参数：均数和标准差。每次一遇到正态分布就迅速找这两个概念，最好形成条件反射，因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

　　关于正态分布均数和标准差的性质，我们这里简单总结一下：

　　1）概率密度曲线在均值处达到最大，并且对称；

　　2）一旦均值和标准差确定，正态分布曲线也就确定；

　　3）当X的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交；

　　4）正态随机变量在特定区间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1 ；

　　5）均值可取实数轴上的任意数值，决定正态曲线的具体位置；标准差决定曲线的“陡峭”或“扁平”程度：标准差越大，正态曲线越扁平；标准差越小，正态曲线越陡峭。这是因为，标准差越小，意味着大多数变量值离均数的距离越短，因此大多数值都紧密地聚集在均数周围，图形所能覆盖的变量值就少些（比如1±0.1涵盖[0.9，1.1]），于是都挤在一块，图形上呈现瘦高型。相反，标准差越大，数据跨度就比较大，分散程度大，所覆盖的变量值就越多（比如1±0.5涵盖[0.5，1.5]），图形呈现“矮胖型”。

　　我们可以对照下图直观地看一下，图中黄色曲线为A，蓝色曲线为B，紫红色曲线为C。如图，我们可以看到均数的大小决定了曲线的位置，标准差的大小决定了曲线的胖瘦。A和B的均值一样，但标准差不同，所以形状不同，根据我们的描述，图形越瘦高，标准差越小，图形越扁平，标准差越大。确实如此，图中B的标准差是1/2，小于A的标准差1。

正态分布的大名，如雷贯耳
很多人一说到概率，除了想到丢骰子的古典概型，第二个会想到的就是正态分布了
下图就是正态分布和标准正态分布曲线的图

甚至大部分有区分度的考试（选拔筛选考试，而不是资格水平考试）
学生成绩没呈现正态分布，可以说是试卷出卷和教学有问题

1.2 正态分布从哪儿来？谁发明的？

名字：

正态分布（Normal distribution）

正常分布！一般的分布，完全可以这么翻译

高斯分布（Gaussian distribution）

钟形曲线 (bell curve)

正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个极其常见的连续概率分布。因为正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。
高斯、拉普拉斯、棣莫弗、勒让德很多大神的作用一步步发展而来，高斯是发明了最小二乘方法
正态分布最初是从二项分布发展而来的，二项分布的pmf确实很像正态分布
后来推广到其他概率分布，当样本量极大时接近无限，所有的分布都可以认为趋向于正态分布？
哪些情况可以用正态分布？一般来说，据说是只要是针对同一类型的变量的试验，次数足够大的情况，都会趋向正态分布的

1.3 正态分布是概率论，还是统计？

更多的是统计学
因为都是从观测的数据，去反推这些数据服从什么随机变量--概率的规律--也就是概率密度曲线pdf，也就是概率的分布！

2 正态分布的基本概念内容介绍

2.1 正态分布

正态分布，
正态分布概率函数
f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]

正态分布的平均值 u，是理想的假设知道所有值之后的算术平均值？
正态分布的期望？就是均值吧

正态分布的标准差 δ=np(1-p)
正态分布的方差？就是标准差的平方吧 δ^2

2.2 标准正态分布

正态分布概率函数 f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]
当u=0,δ=1 时，就是标准正态分布
标准正态分布的概率公式更简洁

2.3 正态分布曲线和各种标准的意思

第1置信区间： [-δ,δ] 之间，68.3%
第2置信区间： [-2δ,2δ] 之间，95.4%
第3置信区间： [-3δ,3δ] 之间，99.7%

2.4 正态分布的特点

3个置信区间的
第1置信区间： [-δ,δ] 之间，68.3%
第2置信区间： [-2δ,2δ] 之间，95.4%
第3置信区间： [-3δ,3δ] 之间，99.7%
平均值就是期望
极端值很少，在 [-3δ,3δ] 之外的数很少
标准差小，则数据集中，钟形曲线瘦高个，如果是标准差大，那么钟形曲线就扁和矮。

2.5 正态分布的推论

正态分布变量的和，一般也是正态分布
正态分布相加，一般期望就等于2者期望之和，标准差等于2者标准差之和
也就是正态分布相加，正态分布会变扁（因为标准差是求和变大了！越大越扁）
正态分布还和柯西分布，k2分布有关系

3 哪些情况符合正态分布呢？

3.1 正态分布的适用范围

正态分布，名字叫正常分布，适用面积非常的广
常见的正态分布举例，比如WHO统计的儿童身高体重不就是正态分布的3个区间的数字么
也就是一般就看 [-2δ,2δ] 之间，95.4% 就够了

3.2 哪些情况适合正态分布呢？

正态分布最初是从二项分布发展而来的，二项分布的pmf确实很像正态分布，后来推广到其他概率分布，当样本量极大时接近无限都可以认为趋向于正态分布？

哪些情况可以用正态分布？一般来说，据说是只要是针对同一类型的变量的试验，次数足够大的情况，都会趋向正态分布的

正态分布，从离散的二项分布出发
但是正态分布本身是一种连续分布
正态分布是连续的，意味着单个点的概率p=0，只能关注区间概率
哪些情况可以用正态分布？
一般来说，据说是只要是针对同一类型的变量的试验，次数足够大的情况，都会趋向正态分布的，也就是正态分布具有普适性。。。

生活中到处都是正态分布，试验次数很多的结果
人们认为正态分布完美地诠释了讲到的“同质”和“变异”这两个概念。
正是因为我们研究的对象具有同质性，所以其特征往往是趋同的，也即存在一个基准（均数），但由于个体变异的存在，这些特征又不是完全一致，

几个关键点

只要是针对同一类型的变量的试验，这个说法，意味着一般是类伯努利试验，每次试验之间是独立的，互不影响

也就是说这些随机元素，影响因素之间要独立

而且一般说，影响的因素要比较多

这些随机元素对结果的影响，一般是使用加法原理，用加和的方法求得。也就是这些因素对完成随机试验的结果，是并行的关系。

举例子，用身高举例，遗传因素，环境因素，饮食因素，锻炼因素都是独立的（或者相关程度很低，不是强相关），他们对身高的影响都是可以用加法原理加和的。这样的就符合正态分布