AI学会“视听”新语言，人大北邮上海AI Lab引领多模态理解革命

AI学会“视听”新语言，人大北邮上海AI Lab引领多模态理解革命 | ECCV2024亮点

时间：2024-08-30 18:52:20浏览次数：18

标签：模态分割 AI 北邮 Lab AVS VOS Ref

你是否想过，AI是如何“理解”我们这个多彩世界的呢？

最近，一项由中国人民大学高瓴GeWu-Lab、北京邮电大学、上海AI Lab等机构联合研究的成果，为AI的“感官”升级提供了一种新思路。

这项研究被收录于即将召开的计算机视觉顶级会议ECCV2024。

AI的“视听盛宴”

想象一下，你正在观看一场音乐会，舞台上既有歌手深情演绎，又有乐手娴熟演奏，而AI需要从这复杂的视听场景中准确识别出正在演奏乐器的人。

这听起来像是一项艰巨的任务，然而，新提出的方法Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes）正是为此而生。

传统的视频对象分割（VOS）、视频对象参考分割（Ref-VOS）和视听分割（AVS）方法，虽然各有千秋，但都存在一定的局限性。

VOS依赖于第一帧的精确标注，Ref-VOS虽然更易访问但能力有限，而AVS仅能处理发声的物体。而Ref-AVS则通过整合文本、音频和视觉信息，让AI能够像人类一样，借助多模态线索定位感兴趣的物体，无论是正在唱歌还是弹吉他的人都能被轻松识别。

构建多模态理解的基石

为了验证和优化Ref-AVS的性能，研究团队构建了一个名为Ref-AVS Bench的数据集，其中包含了丰富的视频帧、物体类别和指代表达式，以及对应的音频和像素级标注。

通过精心设计的数据收集和表达式生成过程，Ref-AVS Bench不仅确保了数据的多样性和真实性，还为模型的训练提供了坚实的基础。

实现多模态线索的融合

在技术实现上，Ref-AVS利用时序双模态融合和多模态整合Transformer模块，将文本、音频和视觉信息进行深度融合，以增强表达式指代能力。

这一过程中，Cached memory机制的引入，让模型能够更敏锐地感知时序变化中的多模态信息，从而在掩码解码器中生成更精确的分割结果。

实验结果

结果表明，Ref-AVS在处理多模态表达和场景理解方面展现了卓越的能力，不仅在定量评估中超越了其他方法，还在定性实验中展现了准确分割目标对象的强大实力。

未来，随着多模态融合技术的不断优化、模型应用的实时性提升以及数据集的扩展，多模态指代分割技术有望在视频分析、医疗图像处理、自动驾驶和机器人导航等领域发挥更大的作用，让AI更加贴近人类的感知方式，更深入地理解这个丰富多彩的世界。

标签：模态,分割,AI,北邮,Lab,AVS,VOS,Ref
From： https://blog.csdn.net/2401_85280582/article/details/141725088

智能ai行为分析监控
智能ai行为分析监控技术应用是人工智能科学研究的一个支系。它可以在监控规则和现场画面具体内容叙述中间创建投射关联，智能ai行为分析监控分析以分析和识别为基本，随后利用视觉算法实际操作技术水平对监控画面开展鉴别、追踪和检测。大家可以根据提取视频中的核心信息内容，标识或解......
AI行为识别视频监控系统
伴随着科技的发展，AI行为识别视频监控系统在安防监控行业也得到了长足的进步。尤其是，AI行为识别视频监控系统方面的公司将动态性认知能力视作公司发展的核心技术之一。人工智能技术行为识别技术可以与此同时剖析同一台监控摄像头的很多出现异常行为，而且可以与此同时识别情景中的很......
AI自动化副业创收班手把手带你提升副业收益
副业创收已经成为行业趋势，在当前经济形势下，许多人面临着行业裁员的不确定性。为了增强个人的抗风险能力，寻求一份副业已经成为一种重要的趋势。这不仅是经济上的补充，更是对自由与独立的一种追求——它应让你自主掌控，不被外界束缚。通过精心打造的副业，你不仅可以灵活安排时间，享受到......
服务器数据恢复—异常断电导致ESXI主机共享存储中raid6阵列崩溃的数据恢复案例
服务器存储数据恢复环境：一台存储中有一组由12块SAS硬盘组建的raid6磁盘阵列，划分了1个卷，由数台VmwareESXI主机共享存储。卷中存放了大量的Windows系统虚拟机。这些虚拟机系统盘大小一致，数据盘大小不确定，数据盘都是精简模式。服务器存储故障：机房异常断电导致存储瘫痪，加电后存储依......
解密5款大厂人都在用的AI搜索神器，早下班搞副业都靠它！
大家好，我是凡人小哥。是一个不黑、不吹、不跟风、有知识、有骨气的五好小号主。昨天我弟打电话给我，行业不景气，公司业绩不行，他的很多同事不是被裁掉了，就是离职了，他也被领导烦的不行了，现在公司人少杂事多，一个人得干三个人的活儿，不停的写报告，他快撑不下去了，让我给出出主意。听......
containerd：配置https私有镜像仓库的最新方法
随着containerd应用越来越广泛，我们必须紧跟官网的节奏。之前配置https私有镜像仓库的方法比较繁琐，并且不易梳理，下边介绍一下目前最新的配置方法。配置https私有镜像仓库我假设你现在已经有私有仓库并且是https再假设你的harbor域名是harbor.example.cn你只需要在/etc/contain......
【AI绘画】Midjourney前置指令/describe、/shorten详解
文章目录......
AI自动化副业创收班手把手带你提升副业收益
副业创收已经成为行业趋势，在当前经济形势下，许多人面临着行业裁员的不确定性。为了增强个人的抗风险能力，寻求一份副业已经成为一种重要的趋势。这不仅是经济上的补充，更是对自由与独立的一种追求——它应让你自主掌控，不被外界束缚。通过精心打造的副业，你不仅可以灵活安排时间，享受到工......
运维系列&AI系列&Lenovo-G双系统系列（前传-装之前搜索的）：Ubuntu Linux开机黑屏的永久解
UbuntuLinux开机黑屏的永久解决办法UbuntuLinux开机黑屏的永久解决办法问题：开机之后，没有图形界面，也无法使用命令窗口界面。解决办法1解决办法2：永久解决它底下评论问题一：请问黑屏了进不去，要怎样才能输入你说的这些呢作者回答其他人回答其他人回答问题二：我是能听见进到......

AI学会“视听”新语言，人大北邮上海AI Lab引领多模态理解革命 | ECCV2024亮点

相关文章

赞助商

阅读排行