Author: Hanwang Zhang, Xinting Hu
Create_time: April 24, 2022 11:01 AM
Edited_by: Huang Yujun
Publisher: CVPR 2021
Org: Nanyang Technological University
Distiling Causal Effect of Data in Class-Incremental Learning
1. Contribution
这是一篇从因果角度思考持续学习的文章,这个思路比较新颖有意思
- 从因果角度解释了产生灾难性遗忘的原因,同时分析了 Data Replay 和 Distillation 两种持续学习方法能够在一定程度缓解灾难性遗忘的原因
- 从因果角度的视角,提出了一种等效于 Data Replay ,但不需要存储旧类样本的 Distillation 方法
- 针对新旧类的样本不均衡问题,沿着《Longtailed classification by keeping the good and removing the bad momentum causal effect》的工作,做了改进。
2. Motivation
本文中重点关注的持续方法主要是 Replay-based Method 和 Distillation-based Method。两种方法的有效缓解灾难性遗忘,但同时缺点也很明显:
- Replay-based Method 这种 end-to-end 的方法相比其他 output-end 的方法效果更好,但需要额外的存储空间;
- Distillation-based Method 不需要额外存储空间,但极度依赖于新旧类的分布情况,如果新旧类特征差异较大,Distillation loss 可能会为了尽可能保存旧类特征的同时,误导新类学习到的特征。
因此,作者提出了一个问题:“是否有一种与样本回放等效的端到端蒸馏方法?”
使用因果模型对灾难性遗忘和上述两种缓解灾难性遗忘的方法建模后,问题可以转化为“除了样本回放的方法外,是否还有其他方式,施加旧数据的影响?”
besides replay, is there another way to introduce the causal effect of the old data?
作者找到了这样的方法,也就是本文中提出的方法 Distilling Colliding Effect(DCE),实验证明这个方法可以有效提升 LUCIR 和 PODNet 的性能。
此外,作者还发现了新酒类的不均衡问题,并提出了 Incremental Momentum Effect Removal method,以去除 biased data causal effect 。
3. (Anti-) Forgetting in Causal Views
为了能够系统的解释灾难性遗忘以及缓解灾难性遗忘的因果关系,本文对持续学习中的数据、特征、预测标签使用因果图(Causal Graphs)来表示各自之间的关系。
在上面的这张图中,D 表示旧数据;I 表示用于训练的新数据;X 表示使用新模型提取的特征;\(X_{0}\) 表示使用旧模型提取得到的特征;Y 表示新模型的预测标签;\(Y_{0}\) 表示旧模型的预测标签。
通路 \(I \rightarrow X \rightarrow Y\):表示新数据使用新模型提取特征 X 后,经过新模型的分类器得到预测标签 Y。
通路 \((D,I) \rightarrow X_{0} \& (D,X_{0}) \rightarrow Y_{0}\):表示新旧数据 D I 使用旧模型提取得到特征后,经过旧模型的得到预测标签 \(Y_{0}\) 。(这里中间的 \(X_{0}\) 表示新数据 I 使用旧模型提取特征后得到的特征向量,\((D,X_{0})\) 表示旧数据 D 使用旧模型提取特征后得到的特征向量)。
通路 \(D \rightarrow I\) :为样本回放方法所添加的通路,通过回放存储的样本,使得旧类数据能够与新类数据建立联系。
通路 \(X_{0} \rightarrow X \& Y_{0}\rightarrow Y\):为在 logits 上做蒸馏的方法所添加的通路。
不连通通路 \(X_{0}\nrightarrow X\) : 为作者强调应该忽视的,作者认为虽然新旧模型间存在参数的继承,但随着模型训练,新模型从旧模型中继承得到的参数数量会呈指数下降,因此可以忽略。(参考《Overcoming catastrophic forgetting in neural networks》)