在低计算设备上渲染高帧速率视频的问题可以通过定期预测未来帧来解决,以增强虚拟现实应用程序中的用户体验。这是通过时间视图合成(TVS)问题来研究的,其目标是在给定前一帧以及前一帧和下一帧的头部姿势的情况下预测视频的下一帧。在这项工作中,我们考虑用户和对象都在移动的动态场景的TVS。我们设计了一个框架,将运动分解为用户和对象运动,以便在预测下一帧时有效地使用可用的用户运动。我们通过隔离和估计过去帧中的3D对象运动,然后外推来预测对象的运动。我们使用多平面图像(MPI)作为场景的三维表示,并将对象运动建模为MPI表示中对应点之间的三维位移。为了在估计运动时处理MPI中的稀疏性,我们结合部分卷积和掩蔽相关层来估计对应点。然后将预测的对象运动与给定的用户或相机运动集成,以生成下一帧。使用非闭合填充模块,我们合成了由于相机和对象运动而未覆盖的区域。我们为TVS开发了一个新的动态场景合成数据集,包括800个全高清分辨率视频。我们通过对我们的数据集和MPI Sintel数据集的实验表明,我们的模型优于文献中的所有竞争方法
系统框架
使用时间视图合成对图形化渲染的动态视频进行帧速率上采样。此图显示了以两倍为单位的上采样。图形渲染器渲染交替帧和中间帧,使用时间视图合成预测。为了更好地可视化运动,我们显示了相隔10个时间点的帧,而不是连续的帧。
DeCOMPnet的总体架构。给定的过去帧首先转换为MPI并扭曲为相同的摄影机视图。在扭曲的MPI之间估计3D对象运动,并进行外推以预测未来的对象运动。未来摄像机运动被合并来预测未来的总运动,用于扭曲fn的MPI。然后填充扭曲的MPI并合成alpha,以获得预测的未来帧。为了更好地可视化,显示了反向深度贴图。
可视化我们框架中各个阶段的输出:每一行显示一个不同的示例。第一列显示全分辨率帧,随后的列显示裁剪区域的放大区域。第二列和第三列显示相机运动补偿后的过去帧。第四列和第五列分别显示了预测局部和全局运动后的帧,其中包含错合(以黑色显示)。第六列显示填充后的结果,最后一列显示真实框架。
更多内容请关注公众号:元宇宙MetaAI