Leveraging TCN and Transformer for effective visual-audio fusion in continuous
emotion recognition
利用TCN和Transformer在连续情感识别中实现有效的视音频融合
提出了一种新的多模态融合模型,该模型利用时间卷积网络(TCN)和Transformer来提高连续情感识别的性能。
Processing
在音频模态上:我们使用Wav2Vec2-emotion[22]来提取捕捉语音情感内容的音频特征,
为了使音频特征与视频帧对齐,我们使用插值调整特征的大小以匹配每帧的长度。这确保了我们对两种模式具有一致的时间分辨率。
在视觉模态上:第一个特征向量是使用insightface中的ArcFace[2]提取的,insightface已经在Glint360K数据集[1]上进行了人脸识别的预训练。这个向量以512维编码人脸的身份和姿态。
第二个特征向量是使用EfficientNet-b2[23,24]提取的,该特征向量已经在VGGFace2数据集[20]上进行了人脸识别的预训练,并在AffectNet8数据集上进行了微调。这个向量捕获了维度为1280的面部属性和表情。
使用来自DAN[29]的模型提取第三和第四个特征向量,在MSCeleb上进行预训练,并在RAF-DB和AffectNet8上进行微调。这些向量分别表示人脸的全局和局部特征,每个向量的维数为512。
时间卷积网络:特殊类型的神经网络,它可以捕捉特征随时间变化的时间模式和依赖关系。TCN取输入特征向量,并应用一系列具有不同核大小和扩展率的卷积层来产生输出特征向量。输出特征向量与输入特征向量具有相同的长度,但包含更多关于时间上下文的信息。例如,TCN可以学习视频中每个片段的声音和图像如何随时间变化。然后,通过沿着一个维度将声音和图像的输出特征向量连接起来,将它们组合在一起。这将创建一个新的特征向量,其中包含视频的每个片段的音频和视觉信息。
标签:模态,Transformer,视音,特征向量,音频,融合,TCN,向量 From: https://blog.csdn.net/m0_59933522/article/details/143632967