在视频中检测物体和在图像中检测物体的最大区别在于:信息存在于时间维度中。视频中孤立的帧可能会出现运动模糊、遮挡或失焦等问题,自然可以想到从整个视频中寻找线索来识别物体。
当我们无法确定一个目标的类别时,我们会从其它帧中寻找一个与当前目标具有高度语义相似性的独特目标,并将它们分配在一起。这种信息称为全局语义信息,因为视频中的每一帧都可以被引用。当我们无法确定一个目标是否存在时(黑暗中行走的黑猫),我们不能仅依靠语义信息来告诉我们目标位置,因为实例的存在还没在当前帧中被认可(翻译的比较僵硬,大概就是当前帧中你都不确定有这个目标,你如何根据全局语义信息来增强当前帧目标的特征呢?我得先确定有这个目标,然后这个目标可能会出现先前提到的遮挡等问题,再利用全局语义信息来增强特征),可以通过计算附近帧之间的差得到运动等信息,就能定位当前帧的目标。这种信息称为局部定位信息。人类主要通过这两种信息来识别目标。
根据上述思想,利用整个视频信息来增强VID方法,如(a)所示。整个视频信息比较冗余且庞杂,存在大量的方框,显然不可行。此时就需要平衡效率和精度了。主要分为两大类方法:全局聚合和局部聚合。在短的局部范围内同时利用语义和定位信息,或者只考虑框之间的语义信息。不幸的是,这些方法都不能同时查看局部和全局信息。
还存在一个问题是用于聚合的帧的大小,这决定了当前帧可以从中收集的信息量。大部分方法只选择20-30帧进行特征聚合(1~2秒),如(b)和(c)所示,我们认为这种规模的聚合不足以近似局部和全局影响。论文提出的MEGA能够有效地解决上述问题,有效地聚合全局和局部信息来增强当前帧的候选框特征。
第一阶段,MEGA将全局和局部信息聚合到关键帧,如(d)上半部分所示,但是可用内容仍然有限。第二阶段,引入LRM使得当前帧能够访问更多的内容(关键在于LRM的更新,它会重用之前计算得到的特征,而之前计算得到的特征又包含全局信息,不断重复之后,当前帧就能够访问到更多的内容)。