Object Tracking Network Based on Deformable Attention Mechanism
初读印象
comment:: (DeTrack)采用基于可变形注意力机制的编码器模块和基于自注意力机制的编码器模块相结合的方式进行特征交互。基于可变形注意力机制的编码器可以在不聚焦所有像素的情况下精确跟踪目标位置,减少了模型参数量,有效提高了模型精度。
动机
- 得益于Transformer结构中的全注意力机制,这些跟踪算法取得了有竞争力的结果,但这样的模型参数与基于CNN的相比往往显得臃肿。
- 由于自注意力机制考虑了特征图上的每个像素值,增加了计算复杂度,对于计算机视觉任务,需要更多关注目标本身而不是全局图片。
方法
骨干网络使用公共网络参数提取模板框架和搜索框架的图像特征。然后将提取的模板特征和搜索特征按维度展平和拼接在一起,送入目标融合感知模块,形成目标感知特征图。最后,目标位置由预测头直接预测。目标感知模块:所提出的新颖交互是基于可变形注意力机制的可变形编码器和基于自注意力机制的编码器的组合。基于可变形注意力机制的可变形编码器具有很强的感知能力,可以在不关注所有像素的情况下更精确地跟踪目标位置,更专注于目标周围的像素。
该例的可变形注意力就是在扁平化序列中的一个点找其他点进行一个直接的注意力。
启发
本文从目标跟踪任务的特点出发,探讨了模板帧信息和搜索帧信息之间互动的新方法。基于可变形注意机制的可变形编码器和基于自我注意机制的编码器的组合被用于特征交互。
对可变形部分的应用不新颖。其中的一些句子可供写作参考。