1. MLLAttention介绍
1.1 摘要: Mamba 是一种有效的状态空间模型,具有线性计算复杂度。 最近,它在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。 在本文中,我们揭示了强大的 Mamba 模型与线性注意力 Transformer 具有惊人的相似之处,而线性注意力 Transformer 在实践中通常表现不佳。 通过探索有效的 Mamba 和低于标准的线性注意力 Transformer 之间的异同,我们提供全面的分析来揭开 Mamba 成功背后的关键因素。 具体来说,我们在统一的公式中重新表述了选择性状态空间模型和线性注意力,将 Mamba 重新表述为线性注意力 Transformer 的变体,具有六个主要区别:输入门、忘记门、捷径、无注意力归一化、单头和修改块 设计。 对于每个设计,我们都会仔细分析其优缺点,并凭经验评估其对视觉任务中模型性能的影响。 有趣的是,结果强调了遗忘门和区块设计是 Mamba 成功的核心贡献者,而其他四种设计则不太重要。 基于这些发现,我们通过将这两个关键设计的优点融入到线性注意力中,提出了类曼巴线性注意力(MLLA)模型。 所得模型在图像分类和高分辨率密集预测任务中均优于各种视觉 Mamba 模型,同时享有可并行计算和快速推理速度。
官方论文地址:https://arxiv.org/pdf/2405.1660
标签:24,Transformer,模型,设计,YOLOv10,线性,Mamba,注意力 From: https://blog.csdn.net/tsg6698/article/details/140108255