首页 > 其他分享 >【计算机视觉前沿研究 热点 顶会】ECCV 2024中Mamba有关的论文

【计算机视觉前沿研究 热点 顶会】ECCV 2024中Mamba有关的论文

时间:2024-09-05 12:22:41浏览次数:12  
标签:视频 高效 ECCV VideoMamba 模型 建模 2024 Mamba

MambaIR:状态空间模型图像恢复的简单基线

近年来,图像恢复技术取得了长足的进步,这在很大程度上归功于现代深度神经网络的发展,如 CNN 和 Transformers。然而,现有的修复骨干往往面临全局接受域和高效计算之间的两难困境,阻碍了它们在实践中的应用。最近,选择性结构化状态空间模型,特别是改进的 Mamba 模型,在线性复杂度的长程依赖建模方面显示出了巨大的潜力,为解决上述困境提供了一条途径。然而,标准的 Mamba 在低层视觉方面仍然面临着一定的挑战,如局部像素遗忘和通道冗余。在这项工作中,我们引入了一种简单但有效的基线,称为 MambaIR,它同时引入了局部增强和通道注意来改进普通的 Mamba。

VideoMamba:高效视频理解的状态空间模型

针对视频理解中局部冗余和全局依赖的双重挑战,该工作创新性地将 Mamba 适配到视频域。提出的 VideoMamba 克服了现有 3D 卷积神经网络和视频转换器的局限性。 它的线性复杂性算子支持高效的长期建模,这对于高分辨率的长视频理解至关重要。广泛的评估揭示了 VideoMamba 的四项核心能力。

Motion Mamba:高效且长序列的运动生成

人类运动生成是生成性计算机视觉中的一个重要目标,而实现长序列和高效的运动生成仍然具有挑战性。状态空间模型(SSM)的最新进展,特别是 MAMBA,通过高效的硬件感知设计在长序列建模方面展示了相当大的前景,这似乎是在此基础上建立运动生成模型的一个有前途的方向。然而,由于缺乏专门的运动序列建模设计架构,使 SSMS 适应运动生成面临着障碍。为了应对这些多方面的挑战,我们介绍了三个关键贡献。

ReMuber:使用 Mamba Twister 参考图像分割

利用 Transformers 的参考图像分割(RIS)在复杂视觉语言任务的解释上取得了巨大的成功。然而,二次计算代价使得捕获远程视觉语言依赖关系变得困难,这对于具有长文本描述的大尺寸图像的上下文尤其重要。幸运的是, Mamba 在处理过程中以高效的线性复杂性解决了这个问题。然而,直接将 MAMBA 应用于多模式交互带来了挑战,主要是由于渠道交互不足以有效融合多模式数据。在本文中,我们提出了一种新的 RIS 体系结构,它将 Mamba 的效率与多模式 Mamba Twister 块相结合。

Mamba-ND:多维数据的选择性状态空间建模

近年来, Transformers 已经成为对文本和各种多维数据(如图像和视频)进行序列建模的事实上的架构。然而,在 Transformers 中使用自注意力层会导致令人望而却步的计算和内存复杂性。最近的一种基于状态空间模型的体系结构 Mamba 已经被证明在建模文本序列方面取得了类似的性能,同时随着序列长度的线性扩展。在这项工作中,我们提出了 Mamba-ND,这是一种将 Mamba 体系结构扩展到任意多维数据的通用设计。

VideoMamba:时空选择性状态空间模型

我们介绍 VideoMamba,这是纯 Mamba 架构的新颖改编,专为视频识别而设计。与依赖自注意机制导致二次复杂性导致高计算成本的 Transformers 不同, VideoMamba利用 Mamba 的线性复杂性和选择性的 ESM 机制来实现更高效的处理。提出的时空前向和后向的 RSM 使模型能够有效地捕捉视频中非顺序空间和顺序时间信息之间的复杂关系。因此, VideoMamba 不仅资源高效,而且在捕捉视频中的长期依赖性方面也有效,这一点在各种视频理解基准上的竞争性能和出色效率上得到了证明。

MTMamba:通过基于 Mamba 的解码器增强多任务密集场景理解

多任务密集场景理解是为多个密集预测任务学习一个模型,具有广泛的应用场景。建立远程依赖模型和增强跨任务交互是实现多任务密集预测的关键。提出了一种新的基于 Mamba 的多任务场景理解体系结构 MTMamba。 它包含两种类型的核心块:自任务 Mamba(STM)块和跨任务 Mamba(CTM)块。

ECCV 2024论文合集PDF版

由于判断依据的差异,这篇博客可能无法全面地囊括您需要的论文。

下面的资料中收录并翻译了ECCV 2024所有论文的题目与摘要,它为您扫清了语言障碍,让您能够充分地利用碎片时间、随时随地跟踪计算机视觉与模式识别领域最前沿的研究。
ECCV 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

标签:视频,高效,ECCV,VideoMamba,模型,建模,2024,Mamba
From: https://blog.csdn.net/A_Student10000/article/details/141920982

相关文章

  • 20240904_172638 mysql 填空题 存储过程
    创建一个名为p1的存储过程,只写第一行createprocedurep1()存储过程的开始,单词begin存储过程的结束,单词end调用名为p1的存储过程,不传参数callp1()修改每行命令的结束符号,改成$$delimiter$$查看名为p1的存储过程的创建语句showcreateprocedurep1删除名为p1的存储过......
  • 【优技教育】Oracle 19c OCP 082题库(第13题)- 2024年修正版
    【优技教育】Oracle19cOCP082题库(Q13题)-2024年修正版考试科目:1Z0-082考试题量:90通过分数:60%考试时间:150min本文为(CUUG原创)整理并解析,转发请注明出处,禁止抄袭及未经注明出处的转载。原文地址:http://www.cuug.com.cn/ocp/082kaoshitiku/38175648236.html第13题:13......
  • 2024年9月北京、南京、杭州、深圳CDGA/CDGP认证到这学
    DAMA认证中的CDGA和CDGP是数据管理领域的专业认证之路。通过这两个认证,个人可以提升自己在数据管理领域的专业水平和能力,为企业的发展贡献自己的力量。同时,企业也可以通过选拔和培养具备DAMA认证的数据管理人才,提升自身的数据管理能力,推动企业数字化转型和升级。【认证含金量】·数......
  • 2024.8.10模拟赛17
    模拟赛今天是七夕耶!哦,今天是七夕呀。。。T1Non-decreasing题目背景先拿部分分,当全正或全负时很显然,只需要\(n\)次操作:正:如果\(a_i\gta_{i+1},a_{i+1}\gets(a_i+a_{i+1})\)。负:如果\(a_i\lta_{i-1},a_{i-1}\gets(a_i+a_{i-1})\)。然后开始想有正有负的情......
  • 2024.8.7 模拟赛 15
    模拟赛。。。T1绿绿和串串学习manacher。先说求回文串,manacher算法,每次记录向右能延伸最长的回文串和回文中心。这样对于新扩展的字符,按已有的回文中心对称过去,会得到一个已经求出的回文长度,在这个基础上向两端扩展就好了。对于普通的回文串,有奇回文和偶回文两种,为了方便......
  • 2024.8.8模拟赛16
    模拟赛重拾题解(刚刚写过一版忘保存了)T1其实就是个最长公共子序列的变形。把一样的数才匹配换成有倍数关系就匹配。最长公共子序列:一般转化为最长上升子序列,即在一个串中的数\(a\),找到它在另一个串中的位置\(j\),从\(1\dotsj-1\)转移即可,取最大值可用树状数组维护前缀最......
  • 20240905_102100 mysql 备份与恢复 可视化软件sqlyog操作
    导出备份导入备份......
  • 搜狐2024年最新Java开发面试题及参考答案
    Redis的分布式锁Redis的分布式锁是一种在分布式环境下实现互斥访问共享资源的机制。在分布式系统中,多个进程或线程可能同时尝试访问同一资源,为了确保资源的一致性和安全性,需要使用分布式锁来进行协调。Redis实现分布式锁通常使用SETNX命令,该命令在指定的key不存在......
  • 2024最新最全【Android Studio 】下载及安装和【Gradle配置】零基础入门到精通
    文章目录下载安装修改Sdk的位置创建项目修改Gradle的位置查看AS版本工具栏–View项工具栏–Build下的功能说明BuildVariants视图说明下载模拟器(avd)/安卓虚拟设备屏幕熄灭功能关闭虚拟设备功能删除自己开发的应用软件将开发的应用运行到虚拟设备上。修改模拟器的位置下......
  • 2024最新最全【护网行动教学】
    护网行动背景什么是“护网行动”?指挥机构∶由公安机关统一组织的"网络安全实战攻防演习"。护网分为两级演习∶公安部对总部,省厅对省级公司。什么是“实战攻防演习”每支队伍3-5人组成,明确目标系统,不限制攻击路径。提交漏洞不得分,获取权限、数据才能得分。禁止的行为......