扩散模型已经彻底改变了说话人头部生成的领域,但在长时间生成中的表现力、可控性和稳定性方面仍面临挑战。在这项研究中,作者提出了EmotiveTalk框架来解决这些问题。首先,为了更好地控制唇部运动和面部表情的生成,设计了一种基于视觉引导的音频信息解耦(V-AID)方法,以生成与唇部运动和表情对齐的基于音频的解耦表示。具体来说,为了实现音频与面部表情表示空间之间的对齐,作者在V-AID中引入了一个基于扩散的联合语音时间扩展(Di-CTE)模块,在多源情绪条件约束下生成与表情相关的表示。然后,他们提出了一个设计精良的情感说话人头部扩散(ETHD)主干网络,高效地生成高度表现力的说话人头部视频,其中包含一个表情解耦注入(EDI)模块,用于在整合目标表情信息的同时自动将表情从参考肖像中解耦,从而实现更具表现力的生成性能。实验结果显示,EmotiveTalk能够生成富有表现力的说话人头部视频,确保在长时间生成过程中情绪的可控性和稳定性,与现有方法相比取得了最先进性能。
● 论文题目:EmotiveTalk: Expressive Talking Head Generation through Audio Info
标签:表现力,EmotiveTalk,音频,生成,情感,头部,表情 From: https://blog.csdn.net/A_D_I_D_A_S/article/details/144627903