本周重温了ECCV 2020上NeRF提出的论文,全文详细阅读了两遍,对其原理大概做到了心中有数:
首先NeRF是在基于渲染角度提出的一个新的视图合成的办法,而所谓渲染,是将三维场景转化为图像,而观测角度不同,则渲染出的图像也不同,所以我们可以将三维连续场景定义为一个5D函数f,其中的参数为坐标和对应的观测角度,而这个函数的输出结果即为我们的图像,分为两块:颜色c(r,g,b)以及有关于点坐标的体积密度,即最后整个连续场景对应函数需要输出每个点的颜色以及对应的体密度值。
这个与神经网络有什么关系呢?作者提出要用全连接层(MLP)多层感知机去表示这个场景F,而我们需要优化的loss是渲染结果和观测结果之间的差距,由于整个场景是连续可微的,所以我们可以用梯度下降的方法进行优化;整个神经网络由8个全连接层构成,负责处理输出5个参数中的坐标部分,然后输出一个对应位置的体密度值和一个256维度的特征向量,然后用这个256维的特征向量与光线的观测方向链接,在通过一个全连接层,得到我们对应点的颜色值。
整个工作的贡献在于将连续场景建模为5D的MLP网络,应用体渲染技术优化RGB图像表示;此外还有两个tricks优化梯度下降的过程例如位置编码和分层抽样。
而最近更新的进展是LOLNeRF,与原本的NeRF相比,LOLNeRF无须多视图即可实现视图合成,实现三维重建并可从任意视角进行渲染。提出了一种从单一视图中学习三维重建目标的办法,将训练复杂度与图像的分辨率解耦;此外,单个试图可在没有监督情况下学习高质量的几何预测,此方法通过重建固定图像和全新视角来表示学习类别的物体的外观效果超过了对抗方法。这个应该属于自监督学习的范围了。
具体的技术细节还需要更加详细的思考和了解,此外本周还额外补充了生成对抗网络相关的概念,GAN由一个生成器和判别器构成,即有两个独立的神经网络同时进行训练,生成器类似于造假钞的罪犯,而判别器类似于验钞机,这可以引入博弈论来解释这个问题,对于神经网络训练的结果可以证明收敛到纳什平衡;即罪犯可以造出一个完全仿真的假钞,而验钞机有1/2的概率认为这个是真的,也有1/2概率认为这个是假的。其具体意义则是可以生成与原本数据的概率分布完全相同的数据。
LOLNeRF用的是一个自动解码器和GLO的结合,与GAN相比,没有了编码部分。目前阅读这篇论文的理解仅仅到这个地方。
目前阅读论文的方法是先看Introduction部分,先大概了解这个工作解决了哪些问题,然后精度related work和实现原理部分,对于之前没有了解过的知识体系就去广泛的学习和补充,这就导致了我阅读论文的速度没有那么快,基本上两三天才能完全看懂一篇,但是如果让我复现以及证明其中的技术细节,可能现在还做不太到。
标签:总结,场景,渲染,视图,学习,神经网络,图像,第九 From: https://www.cnblogs.com/Lbmttw/p/16990505.html