动机:
显示场景应用时存在的模态缺失问题
解决方法:
引入了三种类型的提示:生成提示、缺失信号提示和缺失类型提示。
(generative prompts, missing-signal prompts, and missingtype prompts)
论文相关技术:
(1)多模态情感分析(MSA,Multimodal Sentiment Analysis)和情感识别(MER,Multimodal Emotion Recognition)
(2)模态缺失的多模态学习(Multimodal Learning with Missing Modalities)
(3)提示学习(Promt Learning)
这些提示可以生成缺失的模态特征,并促进模态内部和模态间信息的学习。通过快速学习,降低了可训练参数的数量。提出的方法在所有评估指标上都明显优于其他方法。广泛的实验和消融研究证明了的方法的有效性和鲁棒性,展示了其有效处理缺失模态的能力。
算法流程
首先,先将缺失的模态数据传入Missing Modality Generation Module中进行生成缺失模态,随后并加入生成提示符,即会在数据后面链接一个标识符。其中PMS表示模态缺失,PNMS表示模态未缺失,公式如下:
接下来,将讲解Missing Modality Generation Module的缺失模态生成过程:
(1)仅缺失单一模态的情况:以缺失音频为例
将Video和Text分别输入到各自的模态转换器中,即
然后再将各自生成的音频特征以及Generative Prompts一同加入到综合生成器中,即
值得注意的是,这些转换器和综合生成器都由Conv 1D层和激活层组成,可谓是非常轻量级。
(2)缺失两个模态的情况:以缺失视频、音频为例
其实也就是先进行和前面一致的模态转换,以及叠加生成提示词:
接下来,开始讲讲,创新点的三种类型的提示:生成提示、缺失信号提示和缺失类型提示
其中,第一种提示词也就是在生成模态数据以及原始模态后面加是否为生成模态的提示符:
然后则是在模态生成后进入一个Conv1D,然后在进入Crossmodal-Transformer模块时,添加缺失信号提示:
然后则是在Crossmodal-Transformer模块的输出后,进入Transformer模块到后再的添加缺失类型提示
实验结果:
指标好就完了。
骨干网络替换后都有效,证明适配性很高,这个框架比较普适。
消融实验,证明模块组合的有效性,其实应该再加一个全部的组合
改进的方向:
显然,Conv1D作为模态之间的转换器实在是有点简单,在处理原始模态的情况下肯定是会导致性能的下降;模态之间相关性如果比较差的情况下,同样会导致性能下降的问题。
标签:模态,Multimodal,精读,Missing,提示,MPLMM,生成,2024,缺失 From: https://blog.csdn.net/weixin_40044549/article/details/142374910