背景:
1、固定网络部分,微调另外一部分, 固定部分包含bn
2、网络的fix部分和训练部分封装到一个nn.Module中
3、训练过程有推理,在推理的时候Module切换到eval(),推理完Module又切换到train()
现象:
最原始现象是 模型训练完,加载训练完的模型,精度和训练最后的训练精度对不上
分析过程:
1、多次训练,每次训练变动太大
2、用单个样本训练,对比训练时候 固定网络部分和推理时候固定网络 输出,发现 固定网络部分就不同
3、分析固定网络的参数,并无变化
4、打印每个算子的输出,发现是第一个BN层后面就变换了,就是BN算子带来的问题
** 根本原因:训练过程推理,推理完成之后,把整个Module切换到train, 而固定部分也会设置成train(),导致固定部分的BN层的running_mean和running_var更新,进而导致网络不稳定**