本文为Dimitri P.Bertsekas与John N. Tsitsiklis所著的《概率导论》的学习笔记。
由于时间紧迫,过于详细的举例说明会导致自己的学习效率较低,于是本文将会比上一篇略去非常多不必要的举例与解释,同时加入很多名词的英文单词,利于以后更好地对外文著作及论文的学习。
Part1 离散随机变量(chapter 2)
本文重点讨论的对象为 随机变量(random variable) ,它对许多概率模型的实验结果数值化起到重要作用。从数学上简要解释的话,就是 随机变量是实验结果的实值函数 。在这一部分,我们所讨论的随机变量是 离散(discrete) 的,即讨论取值有限或可数无限的情况。
1.1 概率质量函数及常见离散随机变量
随机变量给每一个值都分配了一个概率,对于离散随机变量我们将这种对应关系称为 分布列/概率质量函数(probability mass function) 。一个随机变量 \(X\) 的概率质量函数 \(p_X\) 由下面的式子给出:
\[p_X(x) = P(\{X=x\}) \]其中 \(\{X=x\}\) 表示事件 \(X\) 取值为 \(x\) 。在之后的内容中将会约定俗成地使用 大写字母表示随机变量,小写字母表示实数 。
既然概率质量函数是一个概率律,那么自然它会满足 \(\sum_xp_X(\{X=x\}) = 1\) 。
伯努利随机变量
简单来说, 伯努利(Bernoulli)随机变量 就是“抛硬币出现正面”,只不过正反面朝上的概率不一定相等,而是 \(p\) 和 \(1-p\) 。伯努利随机变量在硬币正面朝上时取值为 \(1\) ,那么它的概率质量函数是这样的:
\[p_X(k) = \left\{\begin{array}{lll} p,\quad&\text{若}k=1\\1-p,\quad&\text{若}k = 0\end{array}\right. \]显然满足和为 \(1\) 。
二项随机变量
简单来说, 二项(binomial)随机变量 就是“抛 \(n\) 次硬币出现正面次数”。它的概率质量函数是我们之前所讲的二项分布,参数为 \(n\) 和 \(p\) :
\[p_X(k) = P(\{X=k\}) = \binom{n}{k} p^k(1-p)^{n-k},\quad k=0,1,\cdots,n \]之前我们已经证明过它满足和为 \(1\) 。它的概率质量函数图像是这样的( \(n=300, p=0.1\) ):
它的图像有这样的规律: \(n\) 越大图像将更尖, \(p\) 越大越靠右,反之靠左。注意图像中空白的位置概率质量函数并非为 \(0\) ,而是值太小所以不显示。
几何随机变量
简单来说, 几何(Geometric)随机变量 就是“一直抛硬币直到抛出正面所需次数”。它的概率质量函数也十分地显然:
\[p_X(k) = (1-p)^{k-1}p,\quad k=1,2,\cdots \]可以证明它的和为 \(1\) :
\[\sum_{k=1}^{\infty}p_X(k)=\sum_{k=1}^{\infty}(1-p)^{k-1}p = p\sum_{k=0}^{\infty}(1-p)^k = p\frac 1{1-(1-p)}=1 \]它的概率质量函数图像是这样的( \(p=0.4\) ):
结合概率质量函数定义式不难发现 \(p\) 越小其图像将越平缓,否则将会更陡。
泊松随机变量
泊松(Poisson) 可能并不那么的直观,因为它来自于大名鼎鼎的 泊松过程 。它的概率质量函数由下式给出:
\[p_X(k) = e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,\cdots \]同样可以证明它的和为 \(1\) :
\[\sum_{k=0}^{\infty}e^{-\lambda}\frac{\lambda^k}{k!} = e^{-\lambda}\left(\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}\right) = e^{-\lambda}e^{\lambda} = 1 \]下面分别是它的两个概率质量函数图像( \(\lambda = 0.5\) ):
( \(\lambda = 3\) ):
当 \(\lambda \leq 1\) 时,概率质量函数单调递减;当 \(\lambda > 1\) 时,概率质量函数会随 \(k\) 值先递增后递减。
它的一个应用是去估计二项随机变量概率质量函数。在 \(\lambda = np\) 这一合适的值下,泊松随机变量概率质量函数是二项随机变量概率质量函数一个非常好的逼近。其原因也不难理解,因为当 \(n\rightarrow\infty\) 的二项随机变量概率质量函数其实就是泊松随机变量概率质量函数:
令 \(X\) 为参数为 \(n,p=\frac\lambda n\) 的二项随机变量。当 \(n\rightarrow\infty\) 时首先有
\[\begin{align} &\frac {\binom{n}{i}}{n^i} = \frac{\frac{n!}{(n-i)!i!}}{n^i}\rightarrow\frac{1}{i!} &(\frac{n!}{(n-i)!}\text{将趋近于}n^i)\\ &\left(1-\frac \lambda{n}\right)^n = \left(1+\frac 1{x}\right)^{-\lambda x} &(将n换元为-\lambda x,此时x\rightarrow-\infty)\\ &\rightarrow e^{-\lambda} &(x\rightarrow-\infty时\left(1+\frac 1{x}\right)^x极限为e) \end{align} \]然后
\[\begin{align} P(X=i)&=\binom{n}{i}\left(\frac\lambda{n}\right)^i\left(1-\frac \lambda{n}\right)^{n-i}\\ &= \frac {\binom{n}{i}\lambda^i}{n^i}\left(1-\frac \lambda{n}\right)^{n-i}\\ &\rightarrow e^{-\lambda}\frac{\lambda^i}{i!} \end{align} \]由此推导出的就是泊松随机变量的概率质量函数。从推导过程能够得出,当参数 \(n\) 很大, \(p\) 很小,使 \(\lambda = np\) 不过大时,泊松分布就会有很好的逼近。所以当二项式系数处理起来很麻烦时,可以尝试使用泊松随机变量的分布来计算。
1.2 离散随机变量的函数、期望、矩、方差
离散随机变量的函数
设 \(g\) 为任意函数,那么 \(g(X)\) 必然是一个离散随机变量:因为一个函数不可能把随机变量取值集合从可数集变为不可数集,说明 \(g(X)\) 是离散的;并且 \(g(X)\) 仍是样本空间到实数域的映射,说明 \(g(X)\) 仍是随机变量。
在变换的同时,概率质量函数也会同时发生改变。设 \(Y = g(X)\) ,则其概率质量函数可由下式给出:
\[p_Y(y) = \sum_{\{x|g(x)=y\}}p_X(x) \]下面是随机变量三个非常重要的数。
期望与矩
对于一个随机变量,我们在许多时候需要一个简洁的方式去了解它的取值特点。由此就引出了 期望(也称期望值、均值)(expectation) 这一概念。一个离散随机变量的期望等于其所有取值对于取值概率的加权平均:
\[E[X] = \sum_xp_X(x) \]而 矩(moment) 这一概念来自于物理,它的定义基于期望。矩一般用 \(\mu\) 表示, \(n\) 阶(n-th)矩的定义如下:
\[\mu_X(n) = E[X^n] \]方差
对于一个随机变量,只是知道它取值的加权平均远远不够。取值的离散程度也是随机变量一个非常重要的指标。想要表示数据的离散程度,取值与期望的差值是必须的,但为了避免在定义式中出现绝对值,于是使用平方来消去,首先定义了 方差(variance) \({\rm var}(X)\) :
\[{\rm var}(X) = E[(X-E[X])^2] \]而更为实用的 标准差(standard deviation) \(\sigma\) 则是由下式定义:
\[\sigma_X = \sqrt{{\rm var}(X)} \]标准差更实用,是因为方差在实际应用领域中会有量纲不同这一重大缺陷,而标准差的量纲则与随机变量的一致。
计算方差最暴力的方法是先计算出 \((X-E[X])^2\) 的分布列,这是一个关于随机变量 \(X\) 的函数,可以用前面的方法去计算。
但是这样计算实在太麻烦了,这里便引出了随机变量函数期望一个更为简便的公式:
这个公式也不难证明:
\[\begin{align} E[g(X)] &= E[Y] \\ &= \sum_yyp_Y(y) \\ &= \sum_yy\sum_{\{x|g(x)=y\}}p_X(x) \\ &= \sum_y\sum_{\{x|g(x)=y\}}yp_X(x) \\ &= \sum_y\sum_{\{x|g(x)=y\}}g(x)p_X(x) \\ &= \sum_xg(x)p_X(x) \\ \end{align} \]这个公式一来是可以很方便地计算 \(n\) 阶矩:
\[E[X^n] = \sum_xx^np_X(x) \]这个公式二来自然也适合方差:
\[{\rm var}(X) = E[(X-E[X])^2] = \sum_x(x-E[X])^2p_X(x) \]这个公式还可以进一步化简:
\[\begin{align} {\rm var}(X) &= \sum_x(x-E[X])^2p_X(x) \\ &= \sum_x(x^2-2xE[X]+(E[X])^2)p_X(x) \\ &= \sum_xx^2p_X(x)-2E[X]\sum_xxp_X(x)+(E[X])^2\sum_xp_X(x) \\ &= E[X^2]-2(E[X])^2+(E[X])^2 \\ &= E[X^2]-(E[X])^2 \end{align} \]特别地,当 \(g\) 是一次函数时,期望和方差会有特殊的结果。令 \(Y = aX+b\) ,那么它的期望将会是:
\[E[Y] = \sum_x(ax+b)p_X(x) = a\sum_xxp_X(x)+b\sum_xp_X(x) = aE[X]+b \]它的方差将会是:
\[\begin{align} {\rm var}(Y) &= \sum_x(ax+b-E[Y])^2p_X(x) \\ &= \sum_x(ax+b-aE[X]-b)^2p_X(x) \\ &= a^2\sum_x(x-E[X])^2p_X(x) \\ &= a^2{\rm var}(X) \end{align} \]特别需要注意的是,除了一次函数的情形外一般情况下 \(E[g(X)]\neq g(E[X])\) , \({\rm var}(Y)\neq a^2{\rm var}(X)\) ,不要想当然地使用。
接下来我们讨论一些常见随机变量的均值和方差。
离散均匀随机变量
这种函数的分布列是这样的:
\[p_X(k)=\left\{\begin{array}{ll}\dfrac 1{b-a+1},&若k=a,a+1,\cdots,b \\ 0,&其他\end{array}\right. \]它的均值很好计算,显然是 \(E[X] = \dfrac{a+b}{2}\) 。难以计算的是它的方差,更准确的说是 \(E[X^2]\) 。由于函数图像的平移并不会对方差产生影响,因此我们可以将 \(a\) 先钦定为 \(1\) 来简化计算:
\[\begin{align} E[X^2] &= \sum_{1\leq x\leq b}x^2p_X(x) \\ &= \frac 1b\cdot\frac 16b(b+1)(2b+1) \\ &= \frac 16(2b^2+3b+1) \\ \end{align} \]\[\begin{align} {\rm var}(X) &= E[X^2]-(E[X])^2 \\ &= \frac 16(2b^2+3b+1)-\left(\frac{b+1}2\right)^2 \\ &= \frac{b^2-1}{12} \end{align} \]再将 \(b\) 替换回 \(b-a+1\) 即可得到离散均匀变量方差的公式:
\[{\rm var(X)} = \frac{(b-a+1)^2-1}{12} = \frac{(b-a)(b-a+2)}{12} \]泊松随机变量
泊松随机变量的期望可由下式得到:
\[\begin{align} E[X] &= \sum_{k=0}^\infty ke^{-\lambda}\frac{\lambda^k}{k!} \\ &= \sum_{k=1}^\infty ke^{-\lambda}\frac{\lambda^k}{k!} \\ &= \lambda\sum_{k=1}^\infty e^{-\lambda}\frac{\lambda^{k-1}}{(k-1)!} \\ &= \lambda\sum_{m=0}^{\infty}e^{-\lambda}\frac{\lambda^m}{m!}\qquad(令m=k-1) \\ &= \lambda\qquad(泊松概率质量函数的归一化性质) \end{align} \]想要计算泊松随机变量的方差,一样是要先算出 \(E[X^2]\) 的:
\[\begin{align} E[X^2] &= \sum_{k=1}^\infty k^2e^{-\lambda}\frac{\lambda^k}{k!} \\ &= \lambda\sum_{k=1}^\infty k\frac{e^{-\lambda}\lambda^{k-1}}{(k-1)!} \\ &= \lambda\sum_{m=0}^\infty (m+1)\frac{e^{-\lambda}\lambda^m}{m!} \\ &= \lambda(E[Y]+1) \\ &= \lambda(\lambda+1) \end{align} \]所以泊松随机变量的方差就是:
\[\begin{align} {\rm var}(X) &= E[X^2]-(E[X])^2 \\ &= \lambda(\lambda+1)-\lambda^2 \\ &= \lambda \end{align} \]可以发现一个十分有趣但感觉没什么用的性质,那就是泊松随机变量的期望和方差都是 \(\lambda\) 。
伯努利随机变量
对于 \(p_X(1) = p\) 的伯努利随机变量 \(X\) ,不难得到 \(E[X] = p\) 。那么应用方差的计算公式就会有:
\[{\rm var}(X) = E[X^2]-(E[X])^2 = p(1-p) \]二项随机变量
我们知道,二项随机变量相当于 \(n\) 个独立同分布的伯努利随机变量的加和,那么通过后面1.3节会提到的期望的线性性得到二项随机变量的期望是伯努利随机变量的 \(n\) 倍,即 \(E[X] = np\) 。这是我们根据二项随机变量的性质得到的结论,自然也有更为严谨的证法:
\[\begin{align} E[X] &= \sum_{0\leq k\leq n}kp_X(k)\\ &= \sum_{0\leq k\leq n}k\binom{n}{k}p^k(1-p)^{n-k}\\ &= \sum_{1\leq k\leq n}k\binom{n}{k}p^k(1-p)^{n-k}\\ &= \sum_{1\leq k\leq n}k\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &= np\sum_{1\leq k\leq n}\frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}\\ &= np\sum_{0\leq m\leq z}\frac{z!}{m!(z-m)!}p^m(1-p)^{z-m}\qquad(用m代替k-1,z代替n-1)\\ &= np\qquad(由二项随机变量概率质量函数和为1得)\\ \end{align} \]方差的证明还是要先求得 \(E[X^2]\) ,它的求解与 \(E[X]\) 类似:
\[\begin{align} E[X^2] &= \sum_{0\leq k\leq n}k^2p_X(k)\\ &= \sum_{0\leq k\leq n}k^2\binom{n}{k}p^k(1-p)^{n-k}\\ &= \sum_{0\leq k\leq n}k(k-1)\binom{n}{k}p^k(1-p)^{n-k}+\sum_{0\leq k\leq n}k\binom{n}{k}p^k(1-p)^{n-k}\\ &= \sum_{2\leq k\leq n}k(k-1)\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}+np\\ &= n(n-1)p^2\sum_{2\leq k\leq n}\frac{(n-2)!}{(k-2)!(n-k)!}p^{k-2}(1-p)^{n-k}+np\\ &= n(n-1)p^2\sum_{0\leq m\leq z}\frac{z!}{m!(z-m)!}p^m(1-p)^{z-m}+np\qquad(用m代替k-2,z代替n-2)\\ &= n(n-1)p^2+np\\ \end{align} \]那么方差就很好求了:
\[{\rm var}(X) = E[X^2]-(E[X])^2 = np(1-p) \]其实对于方差也有一种很方便的求法,利用1.5会提到的方差的线性性可以得到二项随机变量的方差同样是伯努利随机变量的 \(n\) 倍。
几何随机变量
这部分需要利用1.4节的工具,因此会在1.4节详细证明。
1.3 多个随机变量的联合概率质量函数
以上关于离散随机变量的理论都是可以推广到多个随机变量上的,下面会简易地从概率质量函数与期望简易地推导二元形式,多元的形式均可通过数学归纳法拓展得到。定义两个随机变量的 联合(joint)概率质量函数 \(p_{X,Y}(x,y) = P(X=x,Y=y)\) 。这里 \(P(X=x,Y=y)\) 的含义是 \(P(\{X=x\}\cap\{Y=y\})\) ,这里为了方便书写写成前面的形式。
联合概率质量函数可以确定任何由 \(X,Y\) 刻画的事件,也能计算 \(X\) 或 \(Y\) 的概率质量函数:
其中计算 \(p_X(x)\) 的推导如下( \(p_Y(y)\) 类似):
\[p_X(x) = P(X=x) = \sum_y P(X=x,Y=y) = \sum_yp_{X,Y}(x,y) \]为了方便区分,在有联合概率质量函数的场合,我们称 \(p_X(x),p_Y(y)\) 为 边缘(marginal)概率质量函数 。
在解决问题时,往往会出现多个随机变量的函数。对于 \(Z = g(X,Y)\) ,它的概率质量函数可由下式计算:
\[p_Z(z) = \sum_{\{(x, y)|g(x,y)=z\}}p_{X,Y}(x,y) \]知道了 \(Z\) 的概率质量函数,那么期望也是能够得知的:
\[E[Z] = \sum_x\sum_yg(x,y)p_{X,Y}(x,y) \]公式的推导与单随机变量的函数类似。
同样地,线性函数的期望对于多个变量的函数仍然有很好的性质。对于 **任意的\(X,Y\) ** :
其中 \(a,b,c\) 为任意常数。这被称为 期望的线性性 ,在能为许多期望计算提供便利。这个性质看起来显然,但严格的证明仍是必须的:
\[\begin{align} E[aX+bY+c] &= E[aX+bY]+c\\ &= \sum_x\sum_y(ax+by)P(\{X=x, Y=y\})+c\\ &= a\sum_xx\sum_yP(\{X=x,Y=y\})+b\sum_yy\sum_xP(\{X=x,Y=y\})\\ &= a\sum_xxP(\{X=x\})+b\sum_yyP(\{Y=y\})+c\\ &= aE[X]+bE[Y]+c \end{align} \]1.4 条件
随机变量条件概率质量函数
对于满足 \(P(A)>0\) 的事件 \(A\) ,在它发生的条件下随机变量 \(X\) 的 条件概率质量函数 定义为:
\[p_{X|A}(x) = P(X=x|A) = \frac{P(\{X=x\}\cap A)}{P(A)} \]由于所有的事件 \(\{X=x\}\) 构成样本空间的分割,因此由全概率公式有:
\[P(A) = \sum_xP(\{X=x\}\cap A) \]联立上面的两个式子可以得到:
\[\sum_xp_{X|A}(x)=1 \]所以 \(p_{X|A}\) 是一个合格的概率质量函数。
条件下的概率质量函数相关计算实际上与一般的概率质量函数无区别。如果所有的事件 \(A_i\) 构成样本空间的一个分割,并且对于所有的 \(A_i\) 都有 \(P(A_i) > 0\) ,那么由全概率公式可以得到:
\[p_X(x) = \sum_iP(\{X=x\}\cap A_i) = \sum_iP(A_i)p_{X|A_i}(x) \]当然我们还可以进一步引入更多的事件,以单个事件 \(B\) 为例:
\[p_{X|B}(x) = \sum_iP(A_i|B)p_{X|A_i\cap B}(x) \]当然有时候事件会牵扯到其他的随机变量,这个时候就需要对关于随机变量条件概率质量函数作出简洁的定义:
\[p_{X|Y}(x|y) = P(\{X=x\}|\{Y=y\}) \]当然通过它来计算概率质量函数也是一样的,只需将前面式子中的事件替换成 \(\{Y = y\}\) 即可:
\[p_X(x) = \sum_yp_Y(y)p_{X|Y}(x|y) \]由联合概率质量函数的定义也可以得到其与条件概率质量函数之间的关系:
\[p_{X,Y}(x,y) = P(\{X=x\}\cap\{Y=y\}) = p_Y(y)\frac{P(\{X=x\}\cap \{Y = y\})}{P(\{Y=y\})} = p_Y(y)p_{X|Y}(x|y) \]随机变量条件期望
同样地,只是将本来的事件替换为了随机变量,本质还是一样的。这里给出比较重要的 全期望定理 :
\[\begin{align} &\ &E[X] &= \sum_{i=1}^nP(A_i)E[X|A_i]\\ &\Leftrightarrow &E[X|B] &= \sum_{i=1}P(A_i|B)E[X|A_i\cap B]\qquad(事件 B 满足 P(A_i\cap B)>0)\\ &\Leftrightarrow &E[X] &= \sum_yp_Y(y)E[X|Y=y] \end{align} \]这三个等价地形式都可以称为期望定理。现在来验证第一个公式:
\[\begin{align} E[X] &= \sum_xxp_X(x)\\ &= \sum_xx\sum_{i=1}^nP(A_i)p_{x|A_i}(x|A_i)\qquad(全概率公式)\\ &= \sum_{i=1}^nP(A_i)\sum_xxp_{x|A_i}(x|A_i)\\ &= \sum_{i=1}^nP(A_i)E[X|A_i] \end{align} \]其他两个公式的验证是类似的。
在了解了这一点后,我们就可以尝试求解集合随机变量的期望和方差:
\[E[X] = \sum_{k=1}^\infty k(1-p)^{k-1}p \]这并不是一个特别好算的无穷级数,因此我们需要做出一些简化。考虑到几何随机变量的意义,不难得到这两个式子:
\[E[X|\{X=1\}] = 1,\qquad E[X|\{X>1\}] = 1+E[X] \]由此就可以用全期望定理:
\[E[X] = P(\{X=1\})E[X|\{X=1\}]+P(\{X>1\})E[X|\{X>1\}]\\ = p+(1-p)(1+E[X]) \]这样的一个方程显然就非常好处理,我们可以解得:
\[E[X] = \frac{1}{p} \]如法炮制我们可以解 \(E[X^2]\) :
\[\begin{align} E[X^2] &= P(\{X=1\})E[X^2|\{X=1\}]+P(\{X>1\})E[X^2|\{X>1\}]\\ &= p+(1-p)(E[(1+X)^2])\\ &= p+(1-p)(1+2E[X]+E[X^2])\\ &= p+(1-p)(1+\frac{2}{p}+E[X^2]) \end{align} \]最后可以得到 \(E[X^2] = \dfrac{2-p}{p^2}\) ,那么就可以得到方差:
\[{\rm var}(X) = E[X^2]-(E[X])^2 = \frac{1-p}{p^2} \]1.5 独立性
随机变量的独立性
类似于上一节,随机变量的引入只是将事件替换为于随机变量值相关的事件,并无本质区别,这里不做过多说明。对于随机变量之间的独立性,可以用下面的表述:
\[对于所有的\enspace x\enspace和\enspace y\enspace 有\enspace p_{X,Y}(x,y) = p_X(x)p_Y(y) \]我们可以通过这一点推出一个进一步的推论:
\[\begin{align} E[XY] &= \sum_x\sum_yxyp_{X,Y}(x,y)\\ &= \sum_x\sum_yxyp_X(x)p_Y(y)\\ &= \sum_xxp_X(x)\sum_yyp_Y(y)\\ &= E[X]E[Y] \end{align} \]方差的线性性
与期望类似,方差也具有线性性。但是方差的线性性需要满足一个条件: \(X,Y\) 相互独立 。这也是将方差的线性性放到这里的原因,因为不独立的话会涉及协方差,这并不在本章的讨论范围内。它的证明并不麻烦:
\[\begin{align} {\rm var}(X+Y) &= E[(X+Y)^2]-(E[X+Y])^2 \\ &= E[X^2+Y^2+2XY]-(E[X]+E[Y])^2 \\ &= E[X^2]+E[Y^2]+2E[XY]-(E[X])^2-(E[Y])^2-2E[X]E[Y] \\ &= E[X^2]-(E[X])^2+E[Y^2]-(E[Y])^2+2E[X][Y]-2E[X]E[Y] \\ &= {\rm var}(X)+{\rm var}(Y) \end{align} \]由此得证。
参考资料
- 概率导论(第2版·修订版)
- 作图工具:GeoGebra