Vision Transformer with Super Token Sampling

* Authors: [[Huaibo Huang]], [[Xiaoqiang Zhou]], [[Jie Cao]], [[Ran He]], [[Tieniu Tan]]

Local library

初读印象

comment:: ViT在捕捉浅层局部特征时可能会出现高冗余度的问题，使用strong super token提供具有语义意义的视觉内容细分，并在保留全局建模的同时减少自注意力的token数量。

Why

自注意力的计算复杂度与标记数呈二次方关系，因此在高分辨率视觉任务（如物体检测和分割）中会产生巨大的计算成本。
ViTs 倾向于捕捉浅层的局部特征，冗余度较高。
1. 浅层的全局注意力会集中在相邻的几个标记上（用红色填充），而忽略距离较远的大部分标记。因此，在捕捉这种局部相关性时，对所有token进行全局比较会产生大量不必要的计算成本。
2. 局部注意力中冗余有所减少，但是仍然只有几个邻近的标记有比较高的权重。

Pasted image 20230823125017 top_mosaic_09cm_area1_0_13 top_mosaic_09cm_area1_1_22

局部注意力和浅层卷积特征提取方案都牺牲了捕捉全局依赖性的能力。

目的：在神经网络的早期阶段获得高效和有效的全局表征。

What

Super Pixel能从感知上将相似的像素组合在一起，从而减少后续处理所需的图像基元数量。将Super Pixe的概念从像素空间借鉴到标记空间，提出Super Token。

super token采样 (STS)：应用快速采样算法通过学习token和super token之间的稀疏关联来预测super token。
多头自我注意 (MHSA)：在super token空间中执行自我注意力，以捕捉super token之间的远程依赖关系。
token上采样 (TU)：使用从第一步中学到的关联将super token映射回原始token空间。

总体架构

Pasted image 20230823130816

Super Token Transformer(STT) Block：

Convolutional Position Embedding (CPE)：CPE 模块使用深度卷积以较低的计算成本增强了局部特征的代表能力。
Super Token Attention (STA):将普通的全局注意力分解为稀疏关联图和低维注意力的乘法，从而有效地捕捉全局依赖关系。
Convolutional Feed-Forward-Network (ConvFFN)：具有深度卷积的 ConvFFN 模块进一步增强了局部特征的代表能力，同时保持了较低的计算成本。

Super Token Attention

Super Token Sample

给定token \(X\in R^{N×C}\) （其中 N = H × W 为标记数），假设每个token \(X_i \in R^{1×C}\) 都属于 m 个超级标记 \(S∈R^{m×C}\) 中的一个，因此有必要计算 X-S 关联图\(Q\in R^{N×m}\) 。
初始：通过对规则网格区域内的标记取平均值，对初始super token \(S^0\) 进行采样。如果网格大小为 h×w，则super token数量为 m = H/h ∗W/w，后经两步迭代：

Token & Super Token Association：计算关联图\(Q^t\in R^{N×m}\)
d是通道数C。* Super Token Update：super token更新为token的加权和

\(\hat{Q}^t\)是列标准化的\(Q^t\)。为了加快采样过程，将每个token的关联计算限制在周边 9 个super token上。
*Self-Attention for Super Tokens：
Token Upsampling：恢复超采样过程中的局部细节
###How

Pasted image 20230823153526

Pasted image 20230823154014

Enlightenment

OCRNet的翻版，使用了更加先进的架构。
从传统算法得到的思想，类似于EMANet。
映射Q迭代的过程没有经过任何可学习变量的修改

标签：Transformer,标记,Super,token,Token,super,注意力
From： https://www.cnblogs.com/tifuhong/p/17909197.html

Bottleneck Transformers for Visual Recognition
BottleneckTransformersforVisualRecognition*Authors:[[AravindSrinivas]],[[Tsung-YiLin]],[[NikiParmar]],[[JonathonShlens]],[[PieterAbbeel]],[[AshishVaswani]]DOI:10.1109/CVPR46437.2021.01625初读印象comment::(BoTNet)通过在ResNet的最后三个......
SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation
SeaFormer:Squeeze-enhancedAxialTransformerforMobileSemanticSegmentation*Authors:[[QiangWan]],[[ZilongHuang]],[[JiachenLu]],[[GangYu]],[[LiZhang]]初读印象comment::(SeaFormer)提出了一种适用于移动设备的轻量级网络，设计了一个通用的注意力块，特......
Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel C
Real-TimeSingleImageandVideoSuper-ResolutionUsinganEfficientSub-PixelConvolutionalNeuralNetwork*Authors:[[WenzheShi]],[[JoseCaballero]],[[FerencHuszar]],[[JohannesTotz]],[[AndrewP.Aitken]],[[RobBishop]],[[DanielRueckert]],[[Z......
BiFormer: Vision Transformer with Bi-Level Routing Attention 使用超标记的轻量ViT
alias:Zhu2023atags:超标记注意力rating:⭐share:falseptype:articleBiFormer:VisionTransformerwithBi-LevelRoutingAttention*Authors:[[LeiZhu]],[[XinjiangWang]],[[ZhanghanKe]],[[WayneZhang]],[[RynsonLau]]Locallibrary初读印象comm......
class sun.reflect.GeneratedConstructorAccessor2 cannot access its superclass sun
在启动JFinal程序时报错classsun.reflect.GeneratedConstructorAccessor2cannotaccessitssuperclasssun.reflect.Constructor问题所在因为这个项目的原作者是使用eclipse编写的，idea和eclipse的启动机制不一样，由于eclipse并没有自动实现热加载机制，因此这里我们需要加上......
ASP.NET WEBAPI 接入微信公众平台总结，Token验证失败解决办法
首先，请允许我说一句：shit！因为这个问题不难，但是网上有关ASP.NETWEBAPI的资料太少。都是PHP等等的。我也是在看了某位大神的博客后有启发，一点点研究出来的。来看正题！1.微信公众平台的接入方法，无非4个参数（signature,timestamp,nonce,echostr）加1个Token（两边对应）2.Token,timestamp,......
2021-CVPR-Transformer Tracking
TransformerTracking相关性在跟踪领域起着关键作用，特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而，相关操作本身是一个局部线性匹配过程，导致语义信息的丢失并容易陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。还有比相关......
C#中CancellationToken和CancellationTokenSource用法
C#中CancellationToken和CancellationTokenSource用法之前做开发时，一直没注意这个东西，做了.netcore之后，发现CancellationToken用的越来越平凡了。这也难怪，原来.netframework使用异步的不是很多，而.netcore首推异步编程，到处可以看到Task的影子，而CancellationToken......
Rethinking and Improving Relative Position Encoding for Vision Transformer: ViT
RethinkingandImprovingRelativePositionEncodingforVisionTransformer*Authors:[[KanWu]],[[HouwenPeng]],[[MinghaoChen]],[[JianlongFu]],[[HongyangChao]]初读印象comment::(iRPE)提出了专门用于图像的相对位置编码方法，code:Cream/iRPEatmain·mi......
修改kubernetes-dashboard默认token认证时间
详解：k8s默认dashboardtoken时间是900s，15分钟，到期后会自动退出登陆。解决办法：修改默认时间找到部署dashboard的yaml文件增加其中这一行[root@master1~]#catrecommended.yaml#Copyright2017TheKubernetesAuthors.##LicensedundertheApacheLicense,Version2.0(th......

Vision Transformer with Super Token Sampling

Vision Transformer with Super Token Sampling

初读印象

Why

What

总体架构

Super Token Attention

Super Token Sample

Enlightenment

相关文章

赞助商

阅读排行