老规矩. 直接第三章
3. 端到端网络结构
给一个audio 短窗口, 也就是片段. 我们预测窗口中间时刻的面部表情.
我们把表情看做一个全端点的向量 (后面我们会看这是什么的一种刻画面部)
一旦我们网络训完, 我们回各个时间点同时生成, 并行. 即使不需要过去的帧画面, 依然生成很稳定的画面. (指的是画面不会跳帧严重, 画面连贯).
标签:Emotion,End,Joint,Pose,Driven,画面,Animation From: https://www.cnblogs.com/zhangbo2008/p/17766402.html