高级人工智能系列(一)——贝叶斯网络、概率推理和朴素贝叶斯网络分类器
初学者整理,如有错误欢迎指正。
一、概率论基础
1.1 样本空间 Ω
样本空间是随机试验中所有可能的取值的集合。
比如,掷骰子,结果有1-6 六种可能,那么样本空间即:
\(Ω = \{1, 2, 3, 4, 5, 6\}\)
1.2 事件空间
样本空间的一个子集。
1.3 条件概率
简单地,现有事件A和事件B,
条件概率 P(A|B)表示事件A在事件B发生的条件下发生的概率。
条件概率计算公式:
\(P(A|B)\) = \(P(AB) \over P(B)\)
\(P(A|B_1,B_2,...,B_n)\) = \(P(A,B_1,B_2,...,B_n) \over P(B_1,B_2,...,B_n)\)
根据条件概率公式,可得到乘法公式:
\(P(AB)\) = \(P(A|B) P(B)\)
\(P(A,B_1,B_2,...,B_n)\) = \(P(A|B_1,B_2,...,B_n) P(B_1,B_2,...,B_n)\)
根据上式可以看出,乘法公式可以链式递归。
观察上述乘法公式,等式右侧仍然包含联合概率
\(P(B_1,B_2,...,B_n)\)
\(P(B_1,B_2,...,B_n)\) = \(P(B_1|B_2,...,B_n) P(B_2,...,B_n)\)
\(P(B_2,...,B_n)\) = \(P(B_2|B_3,...,B_n) P(B_3,...,B_n)\)
\(...\)
\(P(B_{n-1},B_n)\) = \(P(B_{n-1}|B_n)P(B_n)\)
整理可得:
\(P(B_1,B_2,...,B_n)\) = \(∏^n_{i=1}P(B_i|B_1,...,B_{i-1})\)
1.4 伯努利大数定律
在日常生活中,我们很自然地会使用频率去估计一个事件的概率。那么其背后的理论是什么?是伯努利大数定律(