上一篇专栏文章我们介绍了基于视频的人脸表情识别的相关概念,了解了目前基于视频的人脸表情识别领域最常用的几个数据集以及经典的实现方法。本文将延续上一篇的内容,分享近几年该领域一些主流的基于深度学习的方法实现。
作者&编辑 | Menpinland
1. 峰值帧引导的深度网络
Zhao等人[1]尝试仅用两帧的人脸图像解决序列问题的方法。网络的输入是一张表情峰值帧和非峰值帧,在训练过程中,使用正则化的方式建立非峰值表情到峰值表情的映射(类似之后提出的对抗学习思想)。类似地,Kim等人[2]用3、5帧的人脸图像实现基于视频序列的表情识别和微表情识别任务。用这类方法的最大优点就是不需要用到序列的全部数据,训练更简单,推理所需要的参数也更少。但最大的问题是需要提前知道哪一帧是峰值帧哪一帧是非峰值帧,在实际应用中这一点很难做到。
推荐指数:✦✦✧✧✧
图1|[1]中提出方法示意图
[1] Zhao X, Liang X, Liu L, et al. Peak-piloted deep network for facial expression recognition[C]//European conference on computer vision. Springer, Cham, 2016: 425-442.
[2] Kim D H, Baddar W J, Jang J, et al. Multi-objective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition[J]. IEEE Transactions on Affective Computing, 2017, 10(2): 223-236.
2. 解决时序问题经典网络的应用
解决时序问题有两种经典的深度学习方法:基于3DCNN和基于CNN-RNN的方法(卷积层用于特征提取)。Fan等人[3]基于上述两种网络分别得到预测结果,再结合基于语音特征预测得到的结果,进行决策级的融合从而得到了最终的识别结果。Vielzeuf等人[4]基于相似的思路做了细微的改进,在公开数据集上取得了更好的识别效果。
推荐指数:✦✦✦✧✧
代码:https://github.com/lidian007/EmotiW2016
图2|[3]中提出的方法示意图
[3] Fan Y, Lu X, Li D, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. 2016: 445-450.
[4] Vielzeuf V, Pateux S, Jurie F. Temporal multimodal fusion for video emotion classification in the wild[C]//Proceedings of the 19th ACM International Conference on Multimodal Interaction. 2017: 569-576.
3. 单张图像融合时序数据
在基于视频的人脸表情识别任务中,深度时空网络(deep spatial-temporal networks)由于其能融合时间和空间特征深受研究者的青睐。通常,3DCNN用于提取图片序列的空间特征,RNN用于提取时序特征。然而这类方法在两个分支网络都需要用到序列中所有的数据,计算量较大。因此,一些研究者考虑在尽可能保留表情特征的基础上减少网络输入的大小。Zhang等人[5]用单张图片取代人脸图片序列以提取空间特征,用人脸特征点序列取代人脸图片序列以提取时间特征,同样实现了较好的识别效果。
推荐指数:✦✦✦✧✧
图3|[5]中提出方法示意图
[5] Zhang K, Huang Y, Du Y, et al. Facial expression recognition based on deep evolutional spatial-temporal networks[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4193-4203.
4. 对各种人脸表情变化模式鲁棒的LSTM
在之前专栏讨论基于图片的人脸表情识别时,我们了解到人的身份、姿态、光照等模式的变化会对识别效果造成较大的影响。在基于视频的人脸表情识别中,这种情况同样存在。Baddar等人还发现,解决时序问题常用的LSTM对于人脸各种模式的变化并不鲁棒。如图4所示,他们挑选了一组表情相同但是光照不同的图片,同时对每张图片进行复制,得到两组序列,每个序列中的每张图片相同。理论上,序列每张图片一样,两组序列除了光照条件不同,其他都相同,那么经过LSTM提取出的特征,单个序列特征值应该固定的,两个序列特征值应该相同或相似。但从可视化的结果可观察到,两组特征差异较大。针对上述问题,Baddar等人[6]尝试直接修改LSTM核内部结构,引入可编码偏差的单元(如图5(b)所示),从而提高对各种变化模式的鲁棒性。同年,在IEEE Transactions On Affective Computing的一篇论文中,Baddar等人[7]同样针对LSTM存在的问题,构建一种时序编码结构以提升基于视频的表情识别中实时预测的效果。
推荐指数:✦✦✦✦✧
图4|LSTM对人脸表情变化模式并不鲁棒
图5|LSTM核原始结构(a)和[6]中修改后的LSTM核结构(b)
[6] Baddar W J, Ro Y M. Mode variational lstm robust to unseen modes of variation: Application to facial expression recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 3215-3223.
[7] Baddar W J, Lee S, Ro Y M. On-the-Fly Facial Expression Prediction using LSTM Encoded Appearance-Suppressed Dynamics[J]. IEEE Transactions on Affective Computing, 2019.
5. 含注意力机制的基于视频人脸表情识别
前面提到,如果能够提前获得人脸序列的表情峰值帧,将有利于提升基于视频的人脸表情识别的准确率,但实现这样的算法并不容易。针对这一点,Meng等人[8]引入注意力机制,在训练过程中区分出更具代表性的帧进而提升后续表情识别效果。Zhou等人[9]则利用注意力机制和双线性池化(bilinear pooling)构建多模态表情特征融合方法;Chen等人[10]则在时空注意力的基础上增加了3D通道注意力以生成更具代表性的特征。
推荐指数:✦✦✦✧✧
代码:https://github.com/MengDebin18/Emotion-FAN
图6|[8]中提出的注意力机制
图7|[9]中提出方法的示意图
[8] Meng D, Peng X, Wang K, et al. Frame attention networks for facial expression recognition in videos[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019: 38663870.
[9] Zhou H, Meng D, Zhang Y, et al. Exploring emotion features and fusion strategies for audio-video emotion recognition[C]//2019 International Conference on Multimodal Interaction. 2019: 562-566.
[10] Chen W, Zhang D, Li M, et al. STCAM: Spatial-Temporal and Channel Attention Module for Dynamic Facial Expression Recognition[J]. IEEE Transactions on Affective Computing, 2020.
6. 利用背景信息辅助表情识别
在基于视频的人脸表情识别中,研究者往往会将研究的重点放在如何捕获脸部的动态变化上。Lee等人[11]认为在自然状态下,人的脸部表情变化并没有那么明显、规律,单纯利用人脸的变化并不能非常准确反正一段时间内人的真实情绪。而且与实验室条件下拍摄得到的表情序列不同的是,自然状态下的视频除了人脸外还包含丰富的肢体动作、人物互动等信息,如果能充分利用这些额外的信息,将同样有助于提升识别的效果。因此他们提出融合背景信息的双流法,一个分支用于提取人脸脸部变化特征,另一个网络分支则编码其余的背景信息以辅助表情识别。
推荐指数:✦✦✦✦✧
图8|[11]中提出的方法框架示意图
[11] Lee J, Kim S, Kim S, et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 10143-10152.
总结
由于3DCNN和LSTM等网络在处理时序问题的优越性,近几年基于视频的人脸表情识别任务主要围绕这两类方法进行有针对性的修改。同时,较大规模的人脸表情识别视频数据集CAER(2019)和DFEW(2020)都是近两年才开源,上文提到的方法大部分还只是在小规模数据集上进行验证,方法的有效性和鲁棒性仍待商榷,因此该领域还有很大的空间值得研究者们去探索。
有三AI秋季划-人脸图像组
人脸图像小组需要掌握与人脸相关的内容,学习的东西包括8大方向:人脸检测,人脸关键点检测,人脸识别,人脸属性分析,人脸美颜,人脸编辑与风格化,三维人脸重建。。了解详细请阅读以下文章:
【CV秋季划】人脸算法那么多,如何循序渐进地学习好?
转载文章请后台联系
侵权必究