CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer

时间：2024-09-18 09:51:48浏览次数：9

近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers (CAS-ViT),这是一种轻量级的ViT变体,旨在在效率和性能之间取得平衡。

这是8月份再arxiv上发布的新论文，我们下面一起来介绍这篇论文的重要贡献

核心创新:卷积加法token混合器(CATM)

CAS-ViT的核心创新在于提出了一种新颖的加法相似度函数,称为卷积加法token混合器(CATM)。与传统ViT中的多头自注意力机制相比,CATM大大降低了计算复杂度。

让我们来看看CATM与之前工作的对比:

传统ViT中的多头自注意力(图a):计算复杂度为O(N^2),其中N是序列长度。这在处理高分辨率图像时计算开销很大。
MobileViTv2中的可分离自注意力(图b):将矩阵特征度量简化为向量,降低了复杂度。
SwiftFormer中的swift自注意力(图c):将自注意力的键减少到两个(Q和K),进一步加速推理。
论文提出的卷积加法自注意力(图d):定义了一个新的相似度函数,将Q和K的上下文分数相加。

https://avoid.overfit.cn/post/e7f68be55b014473a12aef501274b7b4

标签：Transformer,CAS,复杂度,卷积,ViT,加法,注意力
From： https://www.cnblogs.com/deephub/p/18417973

中秋献礼！2024年中科院一区极光优化算法+分解对比！VMD-PLO-Transformer-LSTM多变量时间
中秋献礼！2024年中科院一区极光优化算法+分解对比！VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测目录中秋献礼！2024年中科院一区极光优化算法+分解对比！VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料效果一览......
Vue.js入门系列（三十一）：Element-UI的基本使用与按需引入、Vue 3简介及使用 Vue CLI 与 V
个人名片......
ActivityManagerService 启动进程(3)
ActivityManagerService启动进程简述上一节我们介绍了Activity的启动流程，这一节会在上一节的基础上介绍当要启动的Activity所在的进程之前没有启动，这个情况下是怎么样启动一个新的进程，并且继续启动Activity。我们知道Android是基于linux系统开发的，而linux系统启动一个应......
YoloV8改进策略：BackBone改进|Swin Transformer赋能YoloV8，性能跃升的新篇章
摘要在深度学习领域，目标检测作为计算机视觉的核心任务之一，其性能的提升始终吸引着研究者们的目光。近期，我们创新性地将SwinTransformer这一前沿的Transformer架构引入到YoloV8目标检测模型中，通过替换其原有的主干网络，实现了检测性能的显著提升，为YoloV8系列模型注入了新的......
RT-DETR改进策略：BackBone改进|Swin Transformer，最强主干改进RT-DETR
摘要在深度学习与计算机视觉领域，SwinTransformer作为一种强大的视觉Transformer架构，以其卓越的特征提取能力和自注意力机制，正逐步引领着图像识别与检测技术的革新。近期，我们成功地将SwinTransformer引入并深度整合至RT-DERT（一种高效的实时目标检测与识别框架）中，通过替换其......
Transformer详解
1Transformer结构https://jalammar.github.io/illustrated-transformer/Transformer一个巨大的优点是：模型在处理序列输入时，可以对整个序列输入进行并行计算，不需要按照时间步循环递归处理输入序列。1.1Transformer宏观结构Transformer可以看作是seq2seq模型的一种，对比之前的RNN，......
[独家原创]基于(鳑鲏鱼)BFO-Transformer-GRU多特征分类预测【24年新算法】（多输入单输
[独家原创]基于(鳑鲏鱼)BFO-Transformer-GRU多特征分类预测【24年新算法】（单输入单输出）你先用你就是创新！！！(鳑鲏鱼)BFO优化的超参数为：隐藏层节点数、正则化系数、初始化学习率1.程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！2.Transformer作为一种创新的神......
【独家原创】基于TTAO-Transformer-BiLSTM多变量时序预测【24年新算法】（多输入单输出
【独家原创】基于TTAO-Transformer-BiLSTM多变量时序预测【24年新算法】（多输入单输出）程序已经调试好，无需更改代码替换数据集即可运行！！！数据格式为excel！【独家原创】TTAO-Transformer-BiLSTM多变量时序预测Matlab代码基于三角拓扑聚合算法优化Transformer结合双向长短期记忆......
YOLOv9改进系列，YOLOv9主干网络替换为RepViT (CVPR 2024，清华提出，独家首发)，助力涨点
摘要轻量级视觉变换器（ViTs）在资源受限的移动设备上表现出优越的性能和较低的延迟，相比之下轻量级卷积神经网络（CNNs）稍显逊色。研究人员发现了许多轻量级ViTs和轻量级CNNs之间的结构联系。然而，它们在块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。在本研究中......
web podcast player & music player All In One
webpodcastplayer&musicplayerAllInOne起因发现好多podcast的播放器，竟然没有音量调节、自动循环等功能！这种设计的UX太差了，所以只好自己动手了！https://beyondcodefm.com/zh-CN/66cee1f156bfd3907ab00fc9https://www.xiaoyuzhoufm.com/episode/66cee1f156bfd3907......

CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer

核心创新:卷积加法token混合器(CATM)

相关文章

赞助商

阅读排行