本文介绍了一种新的因果效应推断方法,它不同于传统的先构建概率表达式再用观测数据评估的方法。该研究提出了一种替代方案,即直接从观测数据中学习因果贝叶斯网络(CBN)及其潜在变量,然后利用学习到的模型来回答因果效应查询。这种方法特别适用于离散的可观测变量。通过实验评估表明,这种基于模型完成的学习方法在大型模型中尤其有效,能够克服传统方法在计算上遇到的挑战。论文还对比分析了不同算法和技术的应用,包括期望最大化(EM)算法的不同实现、概率推理算法以及用于学习和推断的软件包等。
1 结构因果模型
结构因果模型(SCM)是一个四元组M = ⟨U, V, F, P(U)⟩:
- U:一组外生的潜在变量,它们的值受模型之外的因素影响。
- V:一组内生的可观测变量,它们的值由模型中的其他变量决定。
- F:一组函数fi,每个fi确定变量Vi的值vi,该值依赖于Vi的因果父节点PAi。
- P(U):潜在变量U的概率分布,假设这些变量相互独立。
(1)因果图
- 诱导因果图:SCM诱导了一个有向图G = ⟨V ∪ U, E⟩,其中每个节点对应SCM中的一个变量,且存在一条从节点X到Vi的边当且仅当X是Vi的父节点。
- Markovian SCM:如果每个潜在变量最多连接到一个可观测变量,则称之为Markovian。
- Semi-Markovian SCM:如果每个潜在变量最多连接到两个可观测变量,则称之为Semi-Markovian。所有SCM都可以转换为等价的Semi-Markovian形式,且保持因果查询的答案不变。
- Acyclic Directed Mixed Graph (ADMG):在Semi-Markovian情况下,简化因果图的一种形式,省略只有一个孩子的潜在变量,并用双向虚线弧替换有两个孩子的潜在变量。
(2)因果贝叶斯网络 (CBN):
- CBN由SCM的因果图G = ⟨V ∪ U, E⟩和相关的条件概率分布P组成。
- 概率分布:P(V, U)根据因果图分解为各个条件概率的乘积。
- 观测分布:P(V)通过对所有潜在变量的边际化得到。
(3)因果效应与干预:
- 干预操作:外部干预通过强制变量X取特定值x来模拟,用do(X = x)表示。
- 干预后分布:干预后SCM的分布由截断公式给出,即去除被干预变量对应的因子并设置其值。
- 因果效应:P(Y|do(X))定义为在干预后分布中对除Y以外的所有变量进行边际化。
(4)因果查询的可识别性:
- 可识别性:给定一个因果图G,如果任何两个与G一致的SCM都具有相同的观测分布P(V),并且也具有相同的P(Y|do(X)),则称P(Y|do(X))是可识别的。
2 基于学习的因果推断
基于学习的因果推断是一种通过直接从观测数据中学习因果贝叶斯网络及其潜在变量,进而利用该模型来高效回答因果效应查询的方法。
- 其学习过程是使用期望最大化 (EM) 算法学习模型和潜在变量的分布。利用学习到的 CBN 通过概率推理来回答因果效应查询。
- 随后,通过一系列实验评估所提方法的有效性,包括对合成网络和真实世界网络的评估。结果显示,对于多个查询,学习时间可以被分摊,从而提高了每查询的时间效率。
- 与传统插值方法相比,插值方法需要针对每个新查询重新估计表达式,即使是在同一模型上。相比之下,基于学习的方法只需学习一次模型即可用于多个查询,这使得它在处理多个查询时更加高效。
3 结语
文章提出了一种新的因果推断方法,该方法通过直接从观测数据中学习包含潜在变量的因果贝叶斯网络,并利用该模型来高效地回答因果效应查询,相较于传统的基于表达式的估计方法更具优势,尤其是在处理较大规模模型时。
论文题目: Estimating Causal Effects from Learned Causal Networks
论文链接: https://arxiv.org/abs/2408.14101
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!