摘要。
人机交互技术的不断进步,使得情感的计算成为可能。在本文中,我们介绍了我们提交给CVPR 2023竞赛的情感行为分析在野外(ABAW)。人机交互中的情感分析应尽可能从多维度入手,填补单个不完善的情感通道,最后通过拟合多个结果确定情感倾向。因此,我们利用了从比赛数据集中不同长度的视频中提取的多模态特征,包括音频、姿势和图像。消息灵通的情绪表征促使我们提出了一种基于注意的多模态情绪估计框架。我们的系统在验证数据集上实现了0.361的性能。代码可在[https://github.com/xkwangcn/ABAW5th-RT-IAI]获得。
1 介绍
在人机交互中,计算机需要捕捉关键信息,感知人类情绪的变化,形成预期,做出调整,并对我们所谓的情感计算做出反应。随着消费场景需求和行业应用拉动,情感计算在现实生活中的应用也越来越广泛,已经融入到在线教育、重症监护、疲劳驾驶检测、个性化推荐等生产生活的各个方面,在虚拟现实等未来领域也具有应用前景。已有大量相关数据集支持理论研究,如AffectNet、Aff-wild2、RAFDB等。
2 相关工作
2.1. 基于图像的面部表情识别
近年来,基于图像的面部表情识别得到了广泛的研究。一般来说,FER系统主要包括三个阶段,即人脸检测、特征提取和表情识别。传统上,手工特征是用来描述不同的面部表情,如LBP[24]、HOG[4]、SIFT[22]等。然而,这些特征在一些具有挑战性的场景下缺乏泛化能力,例如光照条件差。
后来,人们开发了许多野外面部表情数据库,使FER在更具挑战性的环境中进行研究成为可能。近年来,深度学习极大地改善了FER研究[5,6,8,9]。[27]中提出了一种区域关注网络,用于自适应地捕捉面部区域对遮挡和姿态变化的FER的重要性。Self-Cure网络[26]的提出抑制了由歧义表达和注释者暗示性引起的不确定性。
2.2. 基于音频的情绪估计
对于音频模态,情感计算中广泛使用了几个特征。与其他情态特征相结合,通常可以得到很好的表现。从音频中可以提取出多种特征。如eGeMAPS[7]和DeepSpectrum[1]。eGeMAPS是GeMAPS的扩展,它在GeMAPS的基础上增加了一些扩展特性。DeepSpectrum是一种可以获得音频信号深度特征的方法,它基于预训练的图像识别卷积神经网络(cnn)。
2.3. 基于姿态的情绪估计
步态情绪识别是挖掘人类步态的深层信息,将人类情绪建模为离散空间,即由快乐、悲伤、中性、愤怒等构成的一维空间,或连续空间,即由愉悦、觉醒、支配等构成的三维空间[20]。先前的工作[3,25]使用心理学家验证的、手工制作的特征来对情绪进行分类,其缺点是繁琐且不允许理解更高层次的情绪相关特征。目前的工作主要是基于深度学习的方法,可以分为三类。
第一类,以[23]为代表,利用LSTM对序列的表达能力进行深度特征提取,同时使用随机森林分类器融合手工制作的特征进行情感分类。第二类以[21]为代表,利用CNN表达图像特征的能力,对由人体运动关节坐标组成的图像进行特征提取。值得注意的是,本文将重点放在多视角步态图像上,以增加模型的鲁棒性。第三类认为按照人体生物链连接的关节可以看作非欧拉空间中的图结构,可以使用GCN架构对其进行处理。[2]采用ST-GCN[28]对步态骨骼数据进行特征提取,达到了最优的性能,本文还采用了Encoder-Decoder架构对步态样本进行合成。
3 方法
注意到数据集中人物的姿态信息丰富,我们将姿态变化特征添加到该任务中。在这项工作中,我们提出了一种基于当前帧上下文中人脸图像序列、姿势和音频的时间特征来增强对当前帧特征的关注的方法,用于表情识别。我们方法的总体框架如图1所示,通过FAN提取当前预测帧人脸的图像序列并由特征序列组成,特征序列和人脸序列长度相等,从特征序列中的相应位置提取当前帧的视觉人脸特征,用于后期融合。人脸特征序列、姿态信息序列和音频特征序列将分别经过三个两层rnn获取时间维度上的特征,分别用Current face feature计算这些特征的注意力,从而获得三个不同的人脸特征注意力,最后我们直接将这些注意力特征连接起来,连接FC层进行表情预测。
图1所示。我们提出的多模态注意的框架。通过FAN提取当前预测帧人脸的人脸图像序列,由特征序列组成,特征序列与人脸序列长度相等,从特征序列中的相应位置提取当前帧的视觉人脸特征,进行后期融合。人脸特征序列、姿态信息序列和音频特征序列将分别经过三个两层rnn获取时间维度上的特征,分别与当前人脸特征进行注意力计算,从而获得三个不同的人脸特征注意力,最后我们直接将这些注意力特征连接FC层进行表情预测。
3.1. 多模态特征提取
在本文中,人脸特征是由FAN提取的,这是一个单一的端到端模型,利用深度学习方法进行自然条件下的面部情绪分析。我们在Affect-Net Dataset上对FAN进行了预训练,并在af - wild2 Dataset上进行了微调,在微调阶段,考虑到计算能力的效率,我们在30帧中每5帧选择一张人脸图像组成一个数据集,这使得计算量是原来的五分之一,而我们使用FAN从单张人脸图像中提取人脸特征。
在后期的融合阶段,我们将FAN提取的人脸特征按照图像的先后顺序进行组合,然后输入到一个两层RNN中提取时间维度的特征。
我们提取了三个音频特征ComParE2016, eGeMAPS, DeepSpectrum。但由于时间有限,我们只选择DeepSpectrum来完成这个挑战。我们使用DenseNet121网络,将窗口大小设置为1秒,跳跃大小设置为500毫秒,然后得到一个1024维的特征向量。对于EXPR任务,方法是将提取的特征与其他模态直接输入到我们的整体模型中。
对于动态姿态特征,我们首先使用Openpose提取原始视频画面中人物骨骼点的二维坐标,提取频率为每0.5秒检测一帧。这样它就和人脸和音频有相同的频率
3.2. 基于注意力的融合模块
我们对当前帧中每个模态的时间特征信息进行了交叉关注。这些注意特征会将上下文信息的目标提取误读为当前人脸的面部特征。然后将当前人脸和三个注意特征连接在一起,并输入到FC层中进行表情预测。
4 实验
4.1. 数据集
我们使用的数据集是af - wild2[10 - 14,16 - 19,29],由第五届野外情感行为分析(ABAW)竞赛[15]提供。它包含598个视频,包括三个任务。对于表达分类挑战赛,ABAW竞赛提供了其中的247个作为训练数据集,70个作为验证数据集,228个作为测试数据集。我们发现一个名为122-601920x1080-2.txt的文件同时出现在训练数据集和验证数据集中,所以我们在验证数据集中删除了它。
为了提高模型的泛化和鲁棒性,我们还将训练数据集和验证随机分成5次。我们将其中的4次折叠用于训练,最后一次折叠用于验证,因此我们创建了5种分裂。我们在官方的分裂和我们自己的分裂上做了实验。
对于不同的模式,我们做了一些下采样工作来减少训练时间。对于图像模态,我们对这些视频帧进行了5次降采样以减少train训练图像,每5帧使用一张图像。并删除带有无效注释的框架。大约有18万张图片被使用。对于音频和姿态特征,我们每1秒提取两条数据
4.2. 实验设置
这一部分我们将在我们的实验中介绍一些细节。我们在一台RTX3090上训练模型。我们在Affect-Net上对FAN进行预训练。实现是使用开源软件完成的,特别是PyTorch用于深度学习部分。我们使用Adam优化器训练网络,每15个epoch学习率降低10。使用随机网格搜索验证所有超参数。
特别是,我们在[0.0,0.01]范围内验证了权重衰减,在[0.0001]范围内验证了学习率;0.01],优化器的参数beta1和beta2在[0.0;0.999]。其他详细资料及规格请参阅补充资料。
当我们对Aff-Wild2上的FAN进行最多30次的微调时。我们使用AdamW优化器训练网络,并将权重衰减设置为0.05。我们将主干学习率设置为4e-5,下游预测学习率设置为4e-3。当验证F1分数连续2次不下降时,这些学习率将乘以0.5。如表1所示,我们比较了不同Split之间的表达F1分数(以%为单位)。我们发现FAN在第15 epoch的平均得分最高。
表1。不同组间表达F1分数(%)的比较
为了得到人脸、音频和姿态序列,我们使用6秒的窗口大小,选择每秒2帧,这意味着网络输入的T为12。为了训练多模态融合网络,我们冻结了FAN的参数,并将其作为人脸特征的提取器。对于除FAN以外的其他参数,我们将学习率设置为0.02,当验证F1分数连续2次不下降时乘以0.5。由于RTX3090的内存限制,我们将批处理大小设置为4。
4.3. 结果
如表2所示,我们做了单模态和多模态的五种实验。具体包括当前人脸、唯视频、cancat融合和注意力融合。对于可融合,这意味着我们只可以提取三个时间模态特征,然后直接进行预测。对于注意融合,如图1所示,
我们将以上三种模态的注意动作与面部模态一起进行,然后将它们全部合并。验证集的结果
图1所示。我们提出的多模态注意的框架。通过FAN提取当前预测帧人脸的人脸图像序列,由特征序列组成,特征序列与人脸 序列长度相等,从特征序列中的相应位置提取当前帧的视觉人脸特征,进行后期融合。人脸特征序列、姿态信息序列和音频 特征序列将分别经过三个两层rnn获取时间维度上的特征,分别与当前人脸特征进行注意力计算,从而获得三个不同的人脸特 征注意力,最后我们直接将这些注意力特征连接FC层进行表情预测。
如表2所示。结果表明,注意融合的效果优于其他四种模式。
表2。验证时不同形态与融合表达F1分数(%)的比较
5 结论
在本文中,我们提出了一个基于注意力的多模态框架,用于特征融合到情感估计中,包括音频、姿势和图像。我们的系统在验证数据集上实现了0.361的性能。