标题:Causality Inspired Representation Learning for Domain Generalization
会议:CVPR
统计学上的相关(stastistical dependence)不一定表示因果关系。CIRL 旨在挖掘内在的因果机制(intrinsic causal mechanism)。
名词解释:
- DG(Domain Generalization)域泛化
- SCM(Structural Causal Model)结构化因果模型
因果图
输入X由两部分组成causal part: S
, non-causal part: U
,只有S能够因果地影响标签Y的预测。
从因果角度考虑域泛化问题
Common Cause Principle
: 如果 X 和 Y 统计学相关,则存在一个变量S,它因果地影响这两个变量,并在以S为条件时,X和Y独立。Independent Causal Mechanisms(ICM) Principle
: 每个变量在给定其原因的情况下的条件分布(即它的机制)并不通知或影响其他机制。
文章用学习因果表示 (causal representation)
代替直接重构因果因子
(causal factor),并使得因果表示具有3个性质
- 因果因素S能和非因果因素U分离
- \(s_1, s_2, ... , s_n\)之间是相互独立,不含有彼此的信息
- 因果因素S是足够用来预测Y标签的
因果启发的表示学习 (Causality Inspired Representation Learning)
因果表示算法(CIRL)由3个模块组成
causal intervention module
:通过 因果干预 (生成带有扰动的新数据)将 causal factor S 从 non-causal factor U 中分离出来causal factorization module
:将S分解成一个个独立的\(s_i\)。令表示的每个维度联合独立,用来近似因果因子(to approximate causal factor)adversarial mask module
:检测包含因果信息较少的维度,迫使它们学习更多的、更新的因果信息(采用对抗学习 包含掩码器和表示生成器(masker and representation generator))。确保因果充分性(causal sufficiency)。
实验结果
表示重要性 (Representation Importance)
- 利用分类器的第一层的权重来估计每个表示维度的重要性
- 对每个维度上的权重都用(x − min)/(max − min)进行归一化
结果:MatchDG, CIRL 表示重要性的平均值大、标准差小,具有优越性。
原因:CIRL将能够真正影响分类的因果信息嵌入到了表示中
参数敏感性 (Parameter Sensitivity)
CIRL在超参数在较大的取值范围下都能取得有竞争性的表现,即, 5.0 ≤ τ ≤ 10.0 和 0.5 ≤ κ ≤ 0.6(无论是以ResNet-18 或 ResNet-50为基础),进一步证明了该方法的稳定性。