大家好,我是阿潘,今天给大家分享一篇最新的成果《Layered Neural Atlases for Consistent Video Editing》,可以用于视频编辑,从demo来看,可以实现的效果包括删除视频中的物体、可以对视频内的物体进行编辑、风格化迁移等等,效果非常的惊艳。
论文标题:
Layered Neural Atlases for Consistent Video Editing
【上次分享论文】NeROIC: Neural Object Capture and Rendering from Online Image Collections
论文、代码和主页链接:
https://arxiv.org/abs/2109.11418
https://github.com/ykasten/layered-neural-atlases
https://layered-neural-atlases.github.io/
效果:
上面是一些视频编辑的应用示例。
从上往下分别实现的效果是:
第一行:对冲浪者脚下的水花添加特效
第二行 :对河面上的鸭子(可能是鸭子吧)添加特效
第三行:对骑车男孩周围的环境施加特效
第四行:对狗做标记
(a) 各种编辑效果直接应用于我们的输出图集(顶部 4)或给定的视频帧(底部);这些效果包括风格化前景对象 (Blackswan) 或背景 (Bicycle)、转移纹理元素 (Kite-surf、Libby) 或将静止图像转移到移动背景 (Boat)。在所有情况下,编辑都会自动且一致地映射到原始视频帧。有关这些编辑的视频示例,请参阅补充材料。
更多效果:
摘要
我们提出了一种将输入视频分解或“展开”为一组分层 2D 图集的方法,每个图集都提供了视频上对象(或背景)外观的统一表示。对于视频中的每个像素,我们的方法会在每个图集中估计其对应的 2D 坐标,从而为我们提供一致的视频参数化以及相关的 alpha(不透明度)值。重要的是,我们将地图集设计为可解释和语义化的,这有助于在地图集域中轻松直观地进行编辑,而所需的手动工作最少。应用于单个 2D 图集(或输入视频帧)的编辑会自动且一致地映射回原始视频帧,同时保留遮挡、变形和其他复杂的场景效果,例如阴影和反射。我们的方法采用基于坐标的多层感知器 (MLP) 表示,用于映射、图谱和 alpha,它们在每个视频的基础上联合优化,使用视频重建和正则化损失的组合。通过纯粹在 2D 中操作,我们的方法不需要任何关于场景几何或相机姿势的先验 3D 知识,并且可以处理复杂的动态现实世界视频。我们演示了各种视频编辑应用程序,包括纹理映射、视频风格传输、图像到视频纹理传输和分割/标签传播,所有这些都是通过编辑单个 2D 图集图像自动生成的。
整体思路
框架图:
图 2. 我们的两个图集的管道示意图:视频 ???? 中的每个像素位置被输入到两个映射 MLP,M????,M????,它们预测每个图集中 ???? 的相应 2D(????,????)坐标。然后将这些坐标输入到图集 MLP A 中,该图集在该位置输出 RGB 颜色(前景图集和背景图集被映射到 2D 图集空间中的两个不同区域)。???? 在每个图集中的可见性由 alpha MLP M???? 确定,它以 ???? 作为输入并预测不透明度值。然后可以通过对预测的图集点进行 alpha 混合来重建 ???? 处的 RGB 颜色。所有网络都是端到端训练的,主要损失是原始输入视频的自监督重建损失。对于可视化建议,我们在视频中显示给定帧的预测映射和 alpha 映射,并将图集渲染为 RGB 图像。
不足之处
对于单张图片的施加特效或许还好,但是要将同一个效果施加到一段视频上,那工作量太可怕了。如果有算法能够代替或者简化这个重复性的工作,那真的是重大利好。
目前这个算法的效果已经非常的牛了!
不然从demo来看还是有一些需要优化的地方
例如轮胎这个区域生成的结果可能就存在一些不足,轮胎已经和背景的颜色。。。
更多的算法细节,请阅读论文
今天分享的内容就到这里,如果喜欢可以帮忙分享一下,我是阿潘,努力分享更多优秀的成果!