概率系列的第一篇文章。
概率是用计算概括的常识。
——拉普拉斯
Part1 集合
在概率论中,集合论的应用是极为重要的,许多问题的处理都需要集合运算。下面首先引进集合相关的记号与术语。
将一些研究对象放在一起,形成 集合 ,而这些对象就称为集合的 元素 。若 \(x\) 是集合 \(S\) 的元素,则称作 \(x\) 属于 \(S\) ,记作 \(x \in S\) ;反之则不属于,记作 \(x \not\in S\) 。一个集合可以没有元素,这个特殊的集合称为 空集 ,记作 \(\varnothing\) 。
集合一般有两种方式刻画,第一种是将集合的元素列在花括号中:
另一种则是以 \(x\) 具有的某种性质 \(P\) 来刻画,记作:
\[S = \{x | x \text{满足性质} P\}. \]接下来是 可数 与 不可数 。简单来说,一个集合是可数的,但且仅当这个集合的元素是有限的或元素是无限的但可以用一定的顺序排列,而不可数的集合就不是。就比如有理集是可数的,因为它可以用最简分数的分子分母之和从小到大排列,而不是可数的实数集就无法用什么顺序排列。
题外话:康托尔曾在1891年用反证法证明了实数集不可数:假设有一种排列方法可以列出0到1间的所有实数 \(n\) ,举例如下:
那么现在就可以构造出一个数,它的小数点后第 \(x\) 位的数字为任意与 \(n_x\) 不同的一个数字:
这个数与列表中每一个数都至少有一位不同,即这个数不在列表中,从而得证实数集不可数。
回到正题,若集合 \(S\) 的元素全部是集合 \(T\) 的元素,那么我们称 \(S\) 为 \(T\) 的 子集 ,本系列将记作 \(S \subseteq T\) 或 \(T \supseteq S\) 。若 \(S \subseteq T\) 且 \(T \subseteq S\) ,则称两个集合 相等 。为了在之后进行概率相关的计算,我们十分有必要引入空间的概念。将我们感兴趣的所有元素放在一起,形成一个集合,这个集合叫做 空间 ,记作 \(\Omega\) 。当 \(\Omega\) 确定后,我们讨论的所有集合 \(S\) 都是 \(\Omega\) 的子集。
1.1 集合运算
集合 \(\{x\in\Omega | x\not\in S\}\) 称为集合 \(S\) 相对于 \(\Omega\) 的 补集 ,记作 \(S^c\) 。注意 \(\Omega^c = \varnothing\) 。
由属于 \(S\) 或属于 \(T\) 的元素构成的集合称为 \(S\) 与 \(T\) 的 并 。既属于 \(S\) 又属于 \(T\) 的元素构成的集合称为 \(S\) 与 \(T\) 的 交 。这些集合可以用下列公式刻画:
有时候我们需要考虑几个甚至无穷个集合的交和并的问题。此时我们会是用下面的记号:
\[\begin{array}{c} \bigcup\limits_{n=1}^\infty S_n = S_1\cup S_2 \cdots = \{x|x\in S_n\text{对某个}n\text{成立}\},\\ \bigcap\limits_{n=1}^\infty S_n = S_1\cap S_2 \cdots = \{x|x\in S_n \text{对一切}n\text{成立}\}. \end{array} \] 两个集合称为 不相交 的,如果它们的交集为空集。更一般地,如果几个集合中的任意两个集合没有公共元素,那么这些集合称为 互不相交 的。如果一组集合中的集合互不相交,且它们的并为 \(S\) ,那么这组集合称为集合 \(S\) 的 分割 。
设 \(x\) 和 \(y\) 为两个研究对象,我们用 \((x, y)\) 表示 \(x\) 和 \(y\) 的 有序对 。我们用 \(\mathbf R\) 表示实数集合,用 \(\mathbf R^2\) 表示实数对的集合,即二维平面,用 \(\mathbf R^n\) 表示 \(n\) 维实数向量的集合( \(n\) 维空间)。
集合及其运算可用 维恩图 形象化表示:
(其中(a)的阴影部分是 \(S\cap T\) ,(b)的阴影部分是 \(S\cup T\) ,(c)的阴影部分是 \(S\cap T^c\) ,(d)表示 \(T\subseteq S\) ,阴影部分为 \(S^c\) ,(e)中 \(S,T,U\) 互不相交,(f)中 \(S,T,U\) 形成 \(\Omega\) 的一个分割)
1.2集合的代数
集合运算拥有许多性质,可有集合运算的定义直接证得。下面举出一些例子:
\[\begin{array}{lll} & S\cup T = T\cup S,& S\cup(T \cup U) = (S\cup T)\cup U,\\ & S\cap(T \cup U) = (S\cap T)\cup(S\cap U),& S\cup(T \cap U) = (S\cup T)\cap(S\cup U),\\ & (S^c)^c = S,& S\cap S^c = \varnothing,\\ & S\cup\Omega = \Omega,& S\cap\Omega = S. \end{array} \]下面给出著名的 De Morgan定律 :
\[\left(\bigcup\limits_nS_n\right)^c = \bigcap\limits_nS_n^c, \left(\bigcap\limits_nS_n\right)^c = \bigcup\limits_nS_n^c \]关于第一个公式的证明,设 \(x\in(\cup_nS_n)^c\) ,这说明 \(x\not\in \cup_nS_n\) ,即对一切 \(n\) , \(x\not\in S_n\) 。因而,对于一切 \(n\) ,\(x\in S_n^c\) ,即 \(x\in \cap_nS_n^c\) 。这样就得到 \((\cup_nS_n)^c\subseteq\cap_nS_n^c\) ,而反过来包含的证明只需倒推就行了。第二个公式证明类似。
有了以上的集合基础,我们便可以开始进入概率相关的内容了。
Part2 概率模型
概率模型是对不确定现象的数学描述。下面是它的两个基本构成:
概率模型的基本构成
- 样本空间 \(\Omega\) ,这是一个试验所有可能结果的集合。
- 概率律 ,概率律为试验结果的集合 \(A\) (称为 事件)
确定一个数 \(P(A)\) (称为事件 \(A\) 的概率)。
2.1 样本空间、事件与样本空间的选择
每一个概率模型都关联着一个 试验 ,该试验的所有可能结果形成 样本空间 ,样本空间的子集则称为 事件 ,一般用 \(\Omega\) 表示样本空间。
一个试验由什么组成并没有严格限定,但是每个概率模型的问题中只设计一个试验,例如连续投三次骰子只能看做一个试验,不能认为是三个试验。
样本空间可以是可数的,就好比投骰子,但不可数的样本空间[1]也非常常见,就比如往靶子上扔飞镖,把飞镖的落点作为试验结果。
在确定样本空间的时候,不同的试验结果必须是 互相排斥 的,在抛硬币中,我们不能将类似“ \(1\) 或 \(4\) ”与“ \(1\) 或 \(5\) ”定义为一个结果,否则我们将无法得知投到 \(1\) 时是什么结果。
在确定样本空间时,我们可以根据不同的侧重点确定不同的模型。但是确定模型时,不能遗漏试验中有可能发生的任何结果,即试验无论发生什么情况,总能得到样本空间中的一个结果。在建立样本空间时,足够的细节可以帮助我们区分不同的事件,以避免不必要的麻烦。
2.2 序贯模型
许多试验具有序贯的特征(即试验或观察是连续多次的),可以用序贯树的方式刻画样本空间中的试验结果,这里不加赘述。
2.3 概率律
在2.1中我们已经确定了试验与样本空间 \(\Omega\) 的联系,那么接下来我们就要引入 概率律 的概念来完成概率模型的建立。直观上,它确定了任何结果或事件的释然程度。更具体地,它给每一个事件 \(A\) 确定了一个数 \(P(A)\) ,称为事件 \(A\) 的 概率 。概率 \(P(A)\) 满足下面的几条公理:
概率公理
- (非负性)对一切事件 \(A\) ,满足 \(P(A)\geq 0\)
- (可加性)设 \(A\) 和 \(B\) 为两个互不相交的集合(概率论中称为互不相容的事件),则它们的并满足:
- (归一化)整个样本空间 \(\Omega\)(称为必然事件)的概率为 \(1\) ,即 \(P(\Omega) = 1\) 。
概率律一种直观但并不那么准确的解释是频率,表示在大量重复试验中事件 \(A\) 出现的概率为 \(P(A)\) 。在之后的文章会对这种解释进行详尽的讨论。
依靠这个公理系统,概率律许多重要的性质都能被推导出来。例如,由可加性公理与归一性公理可以得到:
由这个性质可知空事件 \(\varnothing\) 的概率为 \(0\) ,即 \(P(\varnothing) = 0\) 。
接下来推导另一个性质,令 \(A_1, A_2, \cdots, A_n\) 为互不相容的事件,反复运用可加性公理可以得到:
即有限多个互不相容的事件的并的概率等于他们各自的概率之和。
2.4 离散模型
接下来用实例来说明概率律的构造方法。
考虑抛一枚硬币,一共有两种结果,正面向上 \(\{1\}\) 与反面向上 \(\{0\}\) 样本空间 \(\Omega = \{1, 0\}\) ,事件有:
若硬币是均匀的,我们会相信硬币的两面会有相同的机会出现,应该确定两个结果的概率是相等的,即 \(P(\{1\}) = P(\{0\})\) 由可加性公理和归一性公理可得:
\[P(\{1, 0\}) = P(\{1\})+P(\{0\}) = 1 \]联立得到:
\[P(\{1, 0\}) = 1, P(\{1\}) = 0.5, P(\{0\}) = 0.5, P(\varnothing) = 0 \]显然所建立的概率律满足三条公理。
利用概率律的可加性公理以及适当的推理,可以得到下面的结论:
离散概率律
设样本空间有有限个可能的结果组成,则事件的概率可由组成这个事件的试验结果的概率所决定。事件 \(\{s_1, s_2, \cdots, s_n\}\) 的概率是 \(\sum_iP(s_i)\) ,即
此处用简单的记号 \(P(s_i)\) 来表示事件 \(\{s_i\}\) 的概率,即 \(P(\{s_i\})\) 。本系列以后也将会沿用此简化的约定书写。
现在设样本空间 \(\Omega = \{s_1, s_2, \cdots, s_n\}\) 并且每个实验结果都是等概率的,结合离散概率律与归一化公理可知 \(P(s_i) = 1/n, i = 1, 2, \cdots, n\) ,并得到一下定律。
离散均匀概率(古典概型)
设样本空间由 \(n\) 个等可能的事件组成,因此每个试验结果组成的事件(被称为基本事件)的概率是相等的。由此得到
2.5 连续模型
若试验的样本空间是一个连续集合,其相应的概率律就无法如同离散情况下一样由基本事件的概率确定。但是离散概率中的均匀概率律还是可以推广到连续的情形,下面就是一个例子:
假设 \(\Omega = [0,1]\) ,并且每个点是等可能发生。然而,由可加性公理及非负性公理我们得到每个单点所组成的事件概率只能为 \(0\) 。对于这种情况,我们可定义子区间 \([l, r]\) 的概率为 \(r-l\) 。更加复杂的集合的概率可以定义为集合的长度[2]。这样定义满足三条公理,因此构造符合要求。
值得注意的是,当样本空间是高维时,例如 \(\Omega = [0, 1]\times[0, 1]\) ,我们便把事件概率定义为事件在样本空间的面积,高维就是体积,这样也是满足公理的。
2.7 概率律的性质
下面列出若干可由概率公理推导而来的性质: