首页 > 其他分享 >2021-CVPR-Transformer Tracking

2021-CVPR-Transformer Tracking

时间:2023-12-18 15:56:49浏览次数:31  
标签:Transformer Tracking 特征 融合 跟踪器 CFA CVPR 模块 增强

Transformer Tracking

相关性在跟踪领域起着关键作用,特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而,相关操作本身是一个局部线性匹配过程,导致语义信息的丢失并容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。还有比相关性更好的特征融合方法吗?为了解决这一问题,受变形器的启发,提出了一种新的基于注意力的特征融合网络,有效地将模板和搜索区域特征相结合。具体来说,该方法包括一个基于自我注意的自我情境增强模块和一个基于交叉注意的交叉特征增强模块。最后,我们提出了一种基于暹罗样特征提取主干、设计的基于注意力的融合机制以及分类和回归头的变压器跟踪(称为TransT)方法。实验表明,我们的TransT在6个具有挑战性的数据集上取得了非常有希望的结果,特别是在大规模的LaSOT、跟踪网和GOT-10k基准测试上。我们的跟踪器在GPU上以大约50帧每秒的速度运行。代码和模型可以在https://github上找到。com/chenxindlut/TransT.

创新点

我们提出了一种新的变压器跟踪框架,由特征提取、类变压器融合和头部预测模块组成。变形融合结合了模板和搜索区域特征,没有相关性。
我们开发了基于具有自我注意的自我情境增强模块和具有交叉注意的交叉特征增强模块的特征融合网络。与基于相关的特征融合相比,我们的基于注意力的方法自适应地关注有用的信息,如边缘和相似的目标,并建立远距离特征之间的关联,使跟踪器获得更好的分类和回归结果。
在许多基准测试上的大量实验结果表明,所提出的跟踪器的性能明显优于最先进的算法,特别是在大规模的LaSOT、跟踪网、GOT10k数据集上。此外,我们的跟踪器在GPU中以约50 fps的速度运行,满足了实时要求。

本节介绍了所提出的变压器跟踪方法,称为TransT。如图2所示,我们的TransT非常简洁,由主干网络、特征融合网络和预测头三个组成部分组成。主干网络分别提取模板和搜索区域的特征。然后,利用特征融合网络对特征进行增强和融合。最后,预测头对增强的特征进行二值分类和边界盒回归,生成跟踪结果。
首先,两个自我上下文增强(ECA)模块通过多头自注意自适应地关注有用的语义上下文,以增强特征表示。然后,两个交叉特征增强(CFA)模块同时接收到它们自己和另一个分支的特征图,并通过多头交叉注意将其融合为这两个特征图。以这种方式,两个eca和两个CFAs形成了一个融合层,如图2中的虚线框所示。融合层重复N次,然后再增加一个CFA来融合两个分支的特征图,解码一个特征图f∈Rd×HxWx(我们在这项工作中使用了N个=4)。非洲经委会和非洲金融协会的详细资料模块将在第3.2节中进行介绍。预测头网络。预测头由一个分类分支和一个回归分支组成,其中每个分支都是一个隐藏维数为d的三层感知器和一个ReLU激活函数。对于f∈R的特征图d×HxWx由特征融合网络生成,头部对每个向量进行预测,得到HxWx前景/背景分类结果,和HxWx相对于搜索区域大小的标准化坐标。我们的跟踪器直接预测标准化坐标,而不是调整锚点或锚盒,基于先验知识完全丢弃锚点或锚盒,从而使跟踪框架更加简洁。

跨功能增强(CFA)。CFA的结构如图3右侧所示。CFA通过以残差的形式使用多头交叉注意来融合来自两个输入的特征向量。与ECA类似,CFA也用于空间位置编码。此外,使用一个FFN模块来增强模型的拟合能力,这是一个完全连接的前馈网络,由两个线性变换组成,中间有一个ReLU。
预测磁头接收到Hx× Wx特征向量,并输出Hx× Wx二元分类和回归结果。我们选择地面真值边界框中像素对应的特征向量的预测作为正样本,其余均为负样本。所有样本都导致分类损失,而只有正样本导致回归损失。为了减少正样本和负样本之间的不平衡,我们将负样本产生的损失降低了16倍。我们采用标准的二值交叉熵损失进行分类,其定义为

回归损失函数


标签:Transformer,Tracking,特征,融合,跟踪器,CFA,CVPR,模块,增强
From: https://www.cnblogs.com/songxiaozheng/p/17911422.html

相关文章

  • Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT
    RethinkingandImprovingRelativePositionEncodingforVisionTransformer*Authors:[[KanWu]],[[HouwenPeng]],[[MinghaoChen]],[[JianlongFu]],[[HongyangChao]]初读印象comment::(iRPE)提出了专门用于图像的相对位置编码方法,code:Cream/iRPEatmain·mi......
  • Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition:使用大核卷
    Conv2Former:ASimpleTransformer-StyleConvNetforVisualRecognition*Authors:[[QibinHou]],[[Cheng-ZeLu]],[[Ming-MingCheng]],[[JiashiFeng]]Locallibrary初读印象comment::研究一种更有效的利用卷积编码空间特征的方法,利用卷积调制来简化自注意力操作......
  • Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解
    初读印象comment::(Swin-transformer)代码:https://github.com/microsoft/Swin-Transformer动机将在nlp上主流的Transformer转换到cv上。存在以下困难:nlp中单词标记是一个基本单元,但是视觉元素在尺度上有很大的变化。图像分辨率高,自注意力操作计算复杂度是图像大小的二次方......
  • Segmentation Transformer: Object-Contextual Representations for Semantic Segment
    SegmentationTransformer:Object-ContextualRepresentationsforSemanticSegmentation*Authors:[[YuhuiYuan]],[[XiaokangChen]],[[XilinChen]],[[JingdongWang]]Locallibrary初读印象comment::(OCRnet)聚焦于语义分割中的上下文聚合问题,利用物体类别的表......
  • 从滑动窗口到YOLO、Transformer:目标检测的技术革新
    本文全面回顾了目标检测技术的演进历程,从早期的滑动窗口和特征提取方法到深度学习的兴起,再到YOLO系列和Transformer的创新应用。通过对各阶段技术的深入分析,展现了计算机视觉领域的发展趋势和未来潜力。关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研......
  • Instruction-Following Agents with Multimodal Transformer
    概述提出了InstructRL,包含一个multimodaltransformer用来将视觉obs和语言的instruction进行编码,以及一个transformer-basedpolicy,可以基于编码的表示来输出actions。前者在1M的image-text对和NL的text上进行训练,后者跟踪了整个obs和act的历史,自回归地输出动作。问题纯语言......
  • Transformers实战——文本相似度
    文章目录一、改写文本分类1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型6.创建评估函数7.创建TrainingArguments8.创建Trainer9.模型训练10.模型评估11.模型预测二、交互/单塔模式1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型(区别)6.创建评估......
  • A Pattern to Solve Backtracking Problems
    Thebacktrackingsolutionsofmostleetcode-problemshaveasimilarpattern.Let'stakealookonit.Subset1.Recursion(Backtrack)-TimecomplexityisO(2^n),andthedepthofrecursionisO(n).classSolution{public:vector<vector<in......
  • 2020CVPR_High-Resolution Image Synthesis with Latent Diffusion Models
    1.AutoEncoderAutoEncoder(自编码器)是一种无监督学习的神经网络模型,用于学习有效的数据表示。它的目标是将输入数据编码成一种潜在的、紧凑的表示形式,然后从这个表示中重构原始输入。自编码器由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器(Encoder):将输入数据映射到潜在表示空......
  • 【学习笔记】transformer 简札
    高铁心血来潮逼着自己把这个模型的结构看了一遍,不写下来会忘掉的Encoder输入是词向量。wordvector->[(multihead)self-attention->forward]×n->layernormalizationselfattention就是qkv矩阵乘法得到z,multiheadselfattention就是进行多个矩阵乘法然后把\(z_......