2024深度学习发论文&模型涨点之——多模态融合
多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层。
最新的研究进展表明,多模态融合领域正在探索传统与新型框架相结合的方法。例如,ICLR2024中提出了渐进融合策略和正交顺序融合方法,这些方法旨在提高多模态信息处理领域的性能表现。渐进融合策略通过在模型的不同层次之间建立联系,使得深层融合的信息能够被浅层使用,避免了信息丢失,同时保留了后融合的优点。正交序列融合(OSF)则是一种新的融合范式,它顺序合并输入并允许对模态进行选择性加权,促进正交表示,从而提取每个附加模态的互补信息。这些研究为多模态融合领域提供了新的视角和方法。
如果有同学想发表相关论文,小编整理了一些多模态融合【论文代码】合集,以下放出部分,全部论文PDF版,需要的同学公重号【AI科研灵感】回复“多模态融合”即可全部领取
论文精选
论文1:
Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling
深度多模态多线性融合与高阶多项式池化
方法
-
多项式张量池化(PTP)块:提出了一种新的多项式张量池化块,用于通过考虑高阶矩来整合多模态特征。
-
张量化全连接层:在PTP块之后使用张量化的全连接层,以进一步处理融合的特征。
-
层次多项式融合网络(HPFN):构建了一个递归传递局部相关性到全局相关性的层次结构,通过堆叠多个PTP块实现。
-
局部相关性捕捉:PTP块能够直接在时间和模态维度上对局部交互进行建模,通过扫描接收窗口来捕捉局部模式。
-
多项式阶数的利用:通过不同阶数的多项式池化来捕捉复杂的非线性多模态相关性。
创新点
-
指数级表达能力增长:通过堆叠PTP块,HPFN的表达能力随着层数的增加而指数级增长。
-
与深度卷积算术电路的等价性:展示了HPFN与非常深的卷积算术电路的等价性,从而暗示了其强大的表达能力。
-
多模态时间序列数据融合:HPFN使得对多模态时间序列数据的融合变得可行,能够捕捉复杂的时序-模态相关性。
论文2:
Efficient Low-rank Multimodal Fusion with Modality-Specific Factors
具有模态特定因素的高效低秩多模态融合
方法
-
低秩张量融合:提出了一种使用低秩张量进行多模态融合的方法,以提高效率。
-
模态特定因素:为每种模态引入特定的低秩因素,以恢复低秩权重张量。
-
并行分解利用:利用输入张量和权重张量的并行分解,直接计算输出表示,避免了显式张量化。
-
元素级乘积和求和:通过元素级乘积和求和的方式,简化了多模态融合的计算过程。
创新点
-
低秩权重张量分解:通过分解权重张量为模态特定因素,减少了模型中的参数数量和计算复杂度。
-
线性扩展性:提出的低秩多模态融合方法能够线性地扩展到任意数量的模态。
-
计算效率的提升:与使用张量表示的其他方法相比,显著提高了模型的训练和推理效率。
-
广泛的适用性:模型能够在多种低秩设置下稳健地执行,并在多任务上达到有竞争力的结果。
论文3:
Cross-modality Person re-identification with Shared-Specific Feature Transfer
跨模态行人重识别与共享-特定特征转移
方法
-
跨模态共享-特定特征转移算法(cm-SSFT):提出了一种新的算法,通过探索模态共享信息和模态特定特征来提升重识别性能。
-
模态亲和性建模:根据共享特征和特定特征建立不同模态样本之间的亲和性模型,并在模态内外传递共享和特定特征。
-
补充特征学习策略:包括模态适应、项目对抗学习和重建增强,以分别学习每种模态的区分性和补充性共享和特定特征。
-
端到端训练:整个cm-SSFT算法可以以端到端的方式进行训练。
创新点
-
模态共享和特定信息的利用:首次提出同时利用模态共享和特定信息,以实现跨模态行人重识别的最新性能。
-
特征转移方法:通过建模模态间和模态内的亲和性来传递信息,有效利用每个样本的共享和特定信息。
-
补充学习策略:提出一种新颖的学习方法,分别提取每种模态的区分性和补充性共享和特定特征,进一步提升cm-SSFT的有效性。
论文4:
MFAS: Multimodal Fusion Architecture Search
MFAS:多模态融合架构搜索
方法
-
多模态融合架构搜索(MFAS):提出了一种新的搜索空间,涵盖大量可能的融合架构,并通过高效的序贯模型基础探索方法找到给定数据集的最优架构。
-
序贯模型基础优化(SMBO):利用SMBO方案,以前应用于神经架构搜索或AutoML的问题,来解决多模态分类问题。
-
多模态融合搜索空间:定义了一个适应于多模态融合问题的搜索空间,包括现代融合方法的超集。
-
自动搜索方法:适应于在定义的搜索空间上准确融合深度模态的自动搜索方法。
创新点
-
多模态融合作为神经架构搜索问题:首次将多模态融合问题直接作为架构搜索问题来解决。
-
搜索空间的设计:定义了一个适应于多模态融合问题的搜索空间,包含了多种现代融合方法。
-
自动搜索方法的适应性:将自动搜索方法适应于多模态深度模态的融合,提高了搜索的准确性和效率。
-
跨模态分类数据集上的性能提升:通过在多个跨模态分类数据集上进行广泛实验,展示了该方法能够发现具有最先进性能的融合架构。
如果有同学想发表相关论文,小编整理了一些多模态融合【论文】合集。
需要的同学公重号【AI科研灵感】回复“多模态融合”即可全部领取
标签:模态,张量,idea,特定,搜索,融合,一区,方法 From: https://blog.csdn.net/AIzhijie001/article/details/143962718