abstract
学习模态融合表征和处理未对齐的多模态序列是多模态情感识别中具有重要意义和挑战性的问题。现有的方法使用双向注意或信息中心来融合语言、视觉和音频模式。然而,这些方法在融合特征时引入了信息冗余,并且没有考虑模式的互补性,效率低下。在本文中,我们提出了一种有效的神经网络来学习CBTransformer (LMR-CBT)的模态融合表示,用于从未对齐的多模态序列中识别多模态情绪。具体而言,我们首先分别对三种模态进行特征提取,以获得序列的局部结构。然后,我们设计了一种新的跨模态块转换器(CBTransformer),实现了不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意表征。此外,我们将融合特征与原始特征进行拼接,对序列的情感进行分类。
最后,我们在三个具有挑战性的数据集,IEMOCAP, CMU-MOSI和CMU-MOSEI上进行了单词对齐和未对齐实验。实验结果表明了该方法在两种情况下的优越性和有效性。与主流方法相比,我们的方法以最少的参数达到了最先进的水平。
intro
多模态情感识别因其鲁棒性和卓越的性能而受到越来越多的关注(Nguyen et al . 2018;Poria等2020;Dai et al . 2021b)。
这项任务的目标是从视频片段中识别人类情绪,这涉及三种主要模式:自然语言、面部表情和音频信号。情绪识别应用于社交机器人、教育质量评估和医疗保健等领域,在2019冠状病毒病期间,情绪分析在这些领域尤为重要(Chandra和Krishna 2021)。与单一模态相比,多模态提供了丰富的信息,可以充分反映情绪状态。然而,由于不同模态序列的采样率不同,收集到的多模态往往是不对齐的。手动对齐不同的模式通常是劳动密集型的,需要领域知识(Tsai et al . 2019b;Pham et al 2019)。此外,大多数高性能网络无法在参数数量和性能之间实现平衡。为此,我们专注于学习融合模态表示的能力,并有效地在未对齐的序列上执行多模态情感识别。
在之前的作品中(Sahay et al 2020;Rahman等人2020;哈扎里卡、齐默尔曼和波里亚2020;Lin等人2021;Dai等人2021a), Transformers (Vaswani等人2017)主要用于未对齐的多模态情感识别。典型的是,Tsai等人(2019a)提出了多模态变压器(Multimodal Transformer, MulT)方法,在不明确对齐数据的情况下融合来自未对齐序列中不同模态的信息。该方法通过一个跨模态注意模块来学习元素对之间的相互作用,该模块迭代地用另一个模态的特征来强化一个模态的特征。最近,Lv等人(2021)提出了渐进式模态强化(PMR),通过引入消息中心与每个模态交换信息。该方法采用渐进式策略,利用高阶源模态信息进行非对齐多模态序列融合。
然而,MulT只考虑了模态对之间特征的融合,而忽略了三模态之间的协调。此外,采用两两方法融合模态特征会产生冗余信息。例如,视觉表征在视觉语言特征和视觉音频特征的串联中重复两次。PMR考虑了三种模式之间的关联,但通过设计集中式消息集线器来融合模式特征会牺牲其效率。具体来说,三种模式的信息需要与消息中心进行紧密的递归交互,以保证特征的完整性,这样的操作需要大量的参数。同时,该方法没有考虑模态信息之间的互补性,只需利用模态之间的交互即可完成特征融合,无需引入第三方。此外,由于模型是预先训练好的,目前的方法参数数量过多,无法适用于现实场景。
因此,为了解决上述限制,我们提出了一种神经网络,利用CB-Transformer (LMR-CBT)学习模态融合表示,用于从未对齐的多模态序列中识别多模态情绪。图2显示了LMR-CBT的总体架构。具体而言,我们首先分别对三种模态进行特征提取,以获得序列的局部结构。
对于音频和视觉模态,我们通过一维时间卷积获得相邻元素的信息。对于语言形态,我们使用双向长短期记忆(BiLSTM)来捕捉文本之间的长期依赖关系和上下文信息。
在获得三种模态的特征表示后,我们设计了一种新的跨模态块转换器(CB-Transformer)来实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意表示。
在局部时间学习部分,使用音频和视觉特征通过transformer获得两个模态的相邻元素相关表示。在跨模态特征融合部分,采用基于残差的模态交互方法获得三模态的融合特征。在全局自关注表示部分,transformer学习融合模态内的高级表示。
CB-Transformer可以在不丢失原始特征的情况下充分表示融合特征,并且可以有效地处理未对齐的多模态序列。最后,将模态融合特征与原始特征拼接,得到情感类别。我们对IEMOCAP (Busso等人2008年)、CMU-MOSI (Zadeh等人2016b)和CMU-MOSEI (Zadeh等人2018年)这三个多模态情感识别的主流公共数据集进行了世界对齐和非对齐实验。实验结果证明了该方法的优越性。
此外,我们在性能和效率之间实现了更好的权衡。与主流方法相比,我们的方法以最少的参数达到了最先进的水平。
我们总结了以下三个主要贡献:
-
我们提出了一种高效的神经网络,利用CB-Transformer (LMR-CBT)学习多模态融合表征,用于非对齐多模态序列(仅0.41M)的多模态情感识别,可以有效地融合三模态的交互信息。
-
为了实现不同模态的互补学习,我们设计了一种新的跨模态块转换器(CB-Transformer),主要分为局部时间学习、跨模态特征融合和全局自注意表征。CB-Transformer可以在不丢失原始特征的情况下充分表示融合特征,并且可以有效地处理未对齐的多模态序列
-
我们在三个具有挑战性的数据集上获得了性能和效率之间更好的权衡。与现有的最先进的方法相比,LMRCBT以最少的参数实现了相当甚至更高的性能。
related work
近年来,多模态情感识别引起了人们的广泛关注。该任务需要对时序信号的跨模态信息进行融合。根据特征融合的方法,可分为早期融合(Morency, Mihalcea, and Doshi 2011;Perez- Rosas, Mihalcea, and Morency 2013),晚期融合(Zadeh et al . 2016a;Wang et al . 2017)和模型融合。以前的工作主要集中在早期或晚期融合策略上。早期融合策略主要是融合浅层多模态特征,重点处理混合模态特征;后期融合策略主要是寻找各模态的置信水平,然后协调它们进行联合决策。尽管与单模态学习相比,使用这些融合策略可以获得更好的性能,但它们没有明确考虑不同模态序列元素之间的内在联系,而这对于有效的多模态融合是必不可少的。随后,模型融合逐渐得到应用,并提出了更复杂的模型。Wang等人(2019)利用视觉和听觉特征来转移文本中的单词。Rahman等人(2020)引入了一种多模态自适应门,将视觉和声学信息集成到一个大型预训练的语言模型中。Hazarika、Zimmermann和Poria(2020)结合了包括分布相似性、正交损失、重建损失和任务预测损失在内的损失组合,以学习模态不变和模态特定表示。Dai等(2021b)引入稀疏交叉注意实现端到端情感识别。Dai等人(2021a)提出了一种基于弱监督的多模态情绪识别多任务学习方法。Yu等人(2021)提出了一种通过结合自监督和多任务学习来融合不同模式特征的方法。尽管自监督和多任务学习可以有效地缓解小样本问题,但如何进行有效的跨模态交互仍然是研究人员面临的一个巨大挑战。因此,这项工作的主要动机是如何在极简的设计下执行非对齐的多模态情感识别,排除自我监督或多任务处理等技巧。
为了融合未对齐的多模态序列的信息,早期的研究基于最大模态信息准则探索了模态元素之间的依赖关系(Zeng et al . 2005)。然而,由于模型结构较浅,这些早期方法的性能远远不能令人满意。Tsai等人(2019a)提出了一种多模态变压器(MulT),使用跨模态注意机制来学习多模态相关性。Sahay等人(2020)在前人工作的基础上,提出了基于低阶融合的变压器(LMT-MULT)来设计LMF单元,实现高效的模态特征融合。Lv等人(2021)提出了渐进式模态强化(PMR)方法。该方法利用消息集线器与三种模态信息进行交互,并采用渐进式策略利用高级源模态信息融合未对齐的多模态时间序列。虽然之前的试验在非对齐多模态情感识别方面取得了一定的性能提升,但仍然面临着跨模态特征有效融合和无法保证信息不丢失的问题。在本文中,我们主要通过一种新的无信息冗余的模态融合策略来达到精度和参数的平衡。
方法
框架
LMR-CBT的整体架构。中:我们设计了一种新颖的跨模态模块转换器(CBTransformer),可以实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意表征。左:基于残差的跨模态融合方法的结构。右:变压器编码器的结构。
预处理
根据不同模态的时间结构分别进行特征预处理。对于音频和视觉模态,为了确保输入序列中的每个元素对相邻元素有足够的感知,我们通过设置不同的卷积核大小,将两种模态分别进行一维时间卷积。具体公式如下:
其中,BN表示批处理归一化,k{V,A}表示模态{V,A}的卷积核大小,df表示公共维数。
在语言形态方面,我们认为语言本身具有长期依赖和联想语境信息的特征。BiLSTM可以更好地捕获双向长时间语义依赖,识别语言的情感表征。我们使用双层BiLSTM进行特征提取:
其中LN表示层归一化。层归一化的目的是稳定每一层的分布,使后续层能够稳定地学习前一层的内容。通过以上操作,一方面可以对相邻元素的特征进行聚合,另一方面可以将未对齐的多模态数据的特征维度预对齐到同一维度。
具有跨模态块的变压器
我们设计了一种具有跨模态模块的新型变压器(CBTransformer)。CB-Transformer分为三个部分:局部时间学习、跨模态特征融合和全局自注意表征。在这个模块中,有两个重要的组成部分:变压器编码器和基于残差的跨模态融合,分别用TransEncoder和CrossModal表示。
在局部时间学习中,我们使用了变压器编码器,由于其显著的性能在计算机视觉和自然语言处理等许多领域越来越受欢迎。我们使用该组件来获得经过1D时间卷积的音频和视觉模态特征的时间表示。具体过程可以用以下公式表示:
其中计算每个位置索引的嵌入,表示通过位置嵌入的结果,TransEncoder表示变压器编码器,我们使用来表示局部时间学习的结果
在跨模态特征融合部分,我们设计了一种基于残差的跨模态融合方法,该方法以和作为输入,三模态的融合表示作为输出。残差结构可以保证信息不丢失。具体公式如下:
其中CrossModal表示基于残差的跨模态融合,我们将在3.4节中详细讨论,表示融合特征。我们认为,融合的情态表征不仅承载了语言情态的信息,而且融合了三种情态的信息,确保了信息的有效交互。同样,变压器编码器用于提取融合特征在全局自关注表示中的表示。
通过全局自注意表征,我们可以得到融合模态的高级互补表征。具体公式如下:
其中表示融合表征的全局自注意学习结果。
预测
我们进行了情绪类别预测。
具体来说,我们对融合模态表示和音频/视觉原始模态表示进行拼接操作,得到。之后,我们通过两层全连接网络得到情感类的最终输出:
其中dout为情感类别的输出维度,为权重向量,b1和b2为偏置,σ为ReLU激活函数。
transformer编码器
我们将介绍用于局部时态学习和全局自注意表示的变压器编码器的细节,如图2右侧所示。首先,根据(Vaswani et al . 2017),我们使用正弦位置嵌入(PE)提取时间序列数据。我们通过sin和cos函数对长度为T的序列的位置信息进行编码,其频率由特征指数决定:
其次,变压器编码器主要由自关注、前馈和加范数组成。自关注是变压器编码器的焦点。具体公式如下:
其中Q, K, V为。由具有不同参数矩阵的不同投影空间表示,其中i表示变压器注意层数,i = 1,…,D。前馈层为两层全连通层,第一层激活函数为Relu:
基于残差的跨模态融合
我们基于残差的跨模态融合方法可以有效融合三个模态的信息,且信息损失较小(图2左侧)。具体来说,该方法接受两个模态的输入,分别称为和。我们通过线性投影得到了两模态特征的映射表示。然后我们用加法和tanh激活函数来处理这两种表示。最后,通过softmax得到融合表示。我们认为,最终的融合信息不仅包含了三种语态的互补信息,还包含了语言语态的特征:
其中L代表线性投影。
在此过程中,为了减轻语言特征的信息丢失,我们在融合后的表示与原始语言表示之间使用残差连接。我们使用算法1来表示整个过程。
experiments
datasets
在本文中,我们使用了三种主流的多模态情感识别数据集:IEMOCAP、CMU-MOSI和CMUMOSEI。实验在词对齐和未对齐两种设置下进行。论文被接受后,代码将向公众开放。
IEMOCAP。IEMOCAP (Busso et al . 2008)是一个多模态情感识别数据集,包含151个视频以及相应的文本和音频。在每个视频中,两位专业演员用英语进行并置对话。其预期的数据分割包括2717个训练样本,798个验证样本和938个测试样本。在12.5 Hz和15 Hz的采样频率下分别提取音频和视觉特征。尽管人类标注有九种情感类别,但在之前的工作(Wang et al 2019;Dai等2020年),我们分为四类:中性、快乐、悲伤和愤怒。此外,这是一个多标签任务(例如,一个人可以同时感到悲伤和愤怒)。我们根据(Lv et al . 2021)报告了每种情绪类别的二元分类精度和F1分数。
CMU-MOSI。CMU-MOSI (Zadeh et al . 2016b)是一个用于多模态情感识别和情感分析的数据集,它包括来自93个Youtube电影评论视频的2199个短独白视频剪辑。它包含1284个训练样本,229个验证样本和686个测试样本。在12.5 Hz和15 Hz的采样频率下分别提取音频和视觉特征。人类注释者用-3(强烈消极)到3(强烈积极)的情感得分标记每个样本。我们使用各种指标来评估模型的性能,与以前工作中使用的指标一致(Tsai等2019a): 7级精度(即Acc7),二进制精度(Acc2)和F1分数。
CMU-MOSEI。CMU-MOSEI (Zadeh et al 2018)也是一个用于多模态情绪识别和情绪分析的数据集,其中包含来自1000个不同演讲者的3837个视频。其预先确定的数据分割包括16,326个训练样本,1,871个验证样本和4,659个测试样本。分别在20 Hz和15 Hz的采样频率下提取音频和视觉特征。此外,每个数据样本还标注了李克特量表上的情绪得分[- 3,3]。我们使用与上面相同的性能指标。
实现细节
对于语言模态的特征提取,我们将视频文本转换为预训练的Glove (Pennington, Socher, and Manning 2014)模型,以获得300维的词嵌入。对于视觉模态的特征提取,我们使用Facet (Baltrusaitis, Robinson, and Morency 2016)来表示35个面部动作单元,这些单元记录了面部肌肉运动,用于表示每帧中的基本和高级情绪。对于音频模态,我们使用COVAREP (Degottex et al . 2014)提取声信号以获得74维矢量。
表1显示了每个数据集在训练和测试中使用的超参数。内核大小用于处理音频和视觉模态的输入序列,由于BiLSTM用于语言模态,因此不涉及内核大小。我们在一台RTX 2080Ti上训练我们的模型。详细信息在补充文件中提供。
与SOTA的比较
我们将所提出的方法与现有的最先进的方法进行了比较,包括早期融合LSTM (EFLSTM)、晚期融合LSTM (LF-LSTM)、多模态分解模型(MFM) (Tsai等人2019b)、Graph - mfn (GMFN)、循环参与变化嵌入网络(RAVEN) (Wang等人2019)、多模态循环平移网络(MCTN) (Pham等人2019)、多模态变压器(MulT) (Tsai等人2019a)、基于低秩融合的变压器(llf -MulT) (Sahay等人2020),情态不变和特定表示(MISA) (Hazarika, Zimmermann和Poria 2020),渐进式情态强化(PMR) (Lv等人2021)。
其中LF-LSTM、MulT、LMF-MulT和PMR可以直接应用未对齐设置。对于其他方法,我们引入了连接时间分类(CTC) (Graves et al . 2006)模块,使它们适用于未对齐的设置。
- 对齐设置:此设置需要手动将语言单词与视觉和音频对齐。我们在表3-5的上半部分展示了我们的方法与其他基准测试的比较。实验结果表明,该方法在三个数据集的不同指标上达到了与PMR (Lv et al 2021)相当的性能水平。与使用6个变压器编码器的LMF-MulT (Sahay et al 2020)相比,我们使用一半的变压器编码器在不同的数据集上获得了更好的性能。
- 非对齐设置:这种设置比单词对齐设置更具挑战性,其中跨模态信息直接从未对齐的多模态序列中提取,以对情绪进行分类。我们在表35的下半部分展示了我们的方法与其他基准测试的比较。此外,图1表明,我们提出的模型在CMU-MOSEI数据集上以最小的参数数量(仅0.41M)达到了最先进的水平。与其他方法相比,我们提出的轻量级网络更适用于真实场景。我们可以从实验结果中得出以下结论:
- 除了MulT (Tsai et al . 2019a)、LMFMulT (Sahay et al . 2020)和PMR (Lv et al . 2021)之外,大多数模型在未对齐设置中表现不佳,因为它们没有考虑到模态之间的相互作用。此外,MISA (Hazarika, Zimmermann, and Poria 2020)的出色表现是由于预训练的模型,大量的参数。
- 与LMF-MulT和MulT模型相比,我们的方法在不同指标上都表现出色。与PMR相比,我们在参数数量最少的不同数据集上具有可比性或更好的性能。
- 此外,在CMU-MOSEI数据集上,MISA和PMR的参数数量分别达到15.9 M和2.15 M,而我们的方法只使用了0.41 M。MISA的参数数量相当于我们的方法的38倍,而PMR的参数数量相当于我们的方法的6倍。它包含了
消融实验
BiLSTM的有效性。对于语言形态,我们采用BiLSTM来捕捉文本之间的长期依赖关系和上下文信息关联。我们将BiLSTM替换为Conv1D进行实验比较,实验结果(表2上半部分)表明,与Conv1D相比,尽管参数数量略有增加,但性能有明显的显著提高,F1分数提高了1.4%。这说明BiLSTM更适合处理文本信息,更能充分体现语言情态的特征。
CB变压器的有效性。为了实现高效的跨模态融合机制,我们将深层音频/视觉特征与浅层语言特征相结合,可以用[V, A]->L表示。我们比较了三种模式在特征融合中的不同操作。其中,[V, L]->A表示将视觉和语音模态整合到音频模态中获得融合特征,[L, A]->V表示将语音和音频模态整合到视觉模态中获得融合特征。从实验结果来看,如表2下半部分所示,在参数数量相同的情况下,[V, A]->L与其余两种设置相比,性能最佳。同时,我们注意到,当我们通过音频获得融合特征时,结果是最差的,这表明我们没有获得音频的高级特征表示。此外,我们还分析了BiLSTM在特征处理阶段已经很好地表征了语言的模态,可以使性能得到很好的体现。
结论及未来工作
在本文中,我们提出了一个神经网络来学习与CB-Transformer (LMR-CBT)的模态融合表征,用于从未对齐的多模态序列中识别多模态情绪。首先,对每个模态分别进行特征预处理。与以前的工作不同,我们使用BiLSTM作为语言模态来处理长期依赖关系和上下文信息。此外,我们设计了一种新的跨模态块转换器(CBTransformer),可以实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意表征。CB-Transformer可以在不丢失原始特征的情况下表示融合特征,并且可以有效地处理未对齐的多模态序列。
最后,我们将所提出的方法分别应用于IEMOCAP、CMUMOSI和CMU-MOSEI,实验结果表明,与现有的最先进的方法相比,所提出的方法在参数数量最少的情况下取得了相当或更好的结果。
我们还发现,这三种模式的初始特征非常重要,但受到预处理的限制。在未来的工作中,我们将建立一个端到端的多模态学习网络,并引入更多模态的学习,如身体姿势,以探索不同模态之间的关系。
标签:模态,Transformer,特征,CB,融合,et,对齐,我们 From: https://blog.csdn.net/weixin_45962681/article/details/144191756