这是一篇早期论文提到的fusion方法,有late early,所以自然就想到slow,但实际上结果差别不大,甚至还不如手工特征,可见特征工程重要性
这篇文章作者采用了一个早期的类注意力机制,人为强制的将图片中心裁剪出来进行识别,当然这是假设我们关心的对象大概率出现在图片中心
第二个工作就是双流网络,双流网络是late fusion,可以考虑在模型的中间进行fusion。
但这个工作能处理的视频非常短,实验是在10帧的短视频上进行的。如果是高帧率的视频来说,10帧也就是0.5秒的时间,都无法覆盖一个完整的动作
显然双流网络里的单帧图片和光流,都无法做这件事
所以有一篇文章提出将视频分片,每一个分片进行一次双流
还有一个小点就是提取光流的那个网络在小数据集上结果不一定很好,但是又很难在大数据集上进行预训练。所以这里直接把imagenet上预训练好的模型参数拿过来用。但是预训练模型有RGB3个C,我们这里有20个C,办法就是把RBG3个C做一个平均,然后复制二十遍。
这里是对网络参数做了一个平均,很多时候看到在融合特征的时候,把网络输出的特征在某一层,做加法,做乘法,取平均,最大值,甚至用一个FC层等等,虽然从数学上讲操作不一样,但是在深度学习里搞不好都是work的(我们在GNN/transformer中都见过做加法做乘法的特征融合)
此外还有一个BN的问题:当视频数据集很小的时候,虽然采用BN会让训练加速,但也带来过拟合的问题。作者提出一个partial BN,在微调阶段如果所有BN都参与微调,那么一调就容易过拟合,但是如果全部冻住不调的话,迁移学习效果又会比较差。作者提出只对第一个BN进行微调,后面冻住不动。
第三类工作就是融合lstm,在较短的视频上提升有限。朱老师认为很好理解,短视频上每一帧内容都差不多,其实提取完特征输入lstm之前得到的东西都差不多,lstm很难再提到什么东西。但是如果每一帧差别很大,lstm的确还是能学到一些运动信息的。
标签:视频,串讲,双流,BN,网络,fusion,理解,lstm From: https://www.cnblogs.com/andoblog/p/17350112.html