3D重建

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

代码：https://github.com/daniilidis-group/neural_renderer
paper：https://arxiv.org/pdf/1911.11130.pdf

摘要

我们提出了一种无需外部监督的从原始单视图图像中学习三维变形物体类别的方法。该方法基于一个自动编码器，将每个输入图像考虑到深度、反照率、视点和照明。为了在没有监督的情况下分离这些组件，我们使用许多对象类别至少在原则上具有对称结构这一事实。我们表明，关于照明的推理允许我们利用潜在的对象对称性，即使外观由于阴影而不对称。此外，通过预测对称概率映射，我们对可能但不确定对称的对象进行建模，并与模型的其他组件端到端学习。实验表明，该方法在不需要任何监督和先验形状模型的情况下，可以非常准确地从单视图图像中恢复人脸、猫脸和汽车的三维形状。在基准测试中，与另一种在2D图像对应级别使用监督的方法相比，我们展示了更高的准确性。

简介

在许多计算机视觉应用中，理解图像的三维结构是关键。DNN似乎可以将图像理解为2D纹理[16]，3D建模可以解释自然图像的许多可变性，并可能从总体上提高图像理解能力。基于这些事实，我们考虑了学习可变形对象类别的3D模型的问题。

两个具有挑战性的条件：

（无监督）第一个条件是没有2D或3D地面真相信息(如关键点、分割、深度图或3D模型的先验知识)。没有外部监督的学习消除了收集图像注释的瓶颈，这通常是将深度学习部署到新的应用程序的主要障碍。
（单视图重建）第二个条件是算法必须使用无约束的单视图图像集合——特别是，它不应该要求同一实例的多个视图。从单视图图像中学习是很有用的，因为在许多应用中，特别是对于可变形的物体，我们只有一个静态图像源来处理。

因此，我们的学习算法摄取一个可变形对象类别的许多单视图图像，并生成一个深度网络作为输出，该网络可以估计给定该对象的单个图像的任何实例的3D形状(图1)。我们将其表述为一个自动编码器，它在内部将图像分解为反照率、深度、光照和view point，而不需要对这些因素进行直接监督。然而，如果没有进一步的假设，将图像分解为这四个因素是不恰当的。在寻找实现这一目标的最小假设时，我们注意到许多对象类别是对称的(例如，几乎所有的动物和许多手工制作的对象)。假设一个物体是完全对称的，人们可以通过简单地镜像它的图像来获得它的虚拟第二视图。事实上，如果一对镜像图像之间有对应关系，则可以通过立体重建实现三维重建[41,12,60,54,14]。受此激励，我们试图利用对称作为几何线索来约束分解。

（问题：直接将2D图像建模为3D参数是不现实的，求解空间太大，没法优化；因此引入一个很强的约束：假设物体是对称的，用一对镜像图像来重建一个对称的3D物体）

然而，具体的对象实例在实践中从来不是完全对称的，无论是在形状还是外观上。由于姿势或其他细节的变化(例如发型或人脸表情)，形状是不对称的，反照率也可能是不对称的(例如猫脸的不对称纹理)。即使形状和反照率都是对称的，由于不对称的照明，外观可能仍然不对称。我们通过两种方式来解决这个问题。首先，我们显式地对照明建模，以利用潜在的对称性，并表明，通过这样做，模型可以利用照明作为恢复形状的附加线索。其次，我们对模型进行扩充，以推断物体中是否可能缺乏对称性。为了做到这一点，该模型与其他因素一起预测了一张密集的map，包含一个给定的像素在图像中有一个对称的对应点的置信度

我们在几个数据集上演示了我们的方法，包括人脸、猫脸和汽车。我们使用合成人脸数据集提供了一个彻底的消融研究，以获得必要的3D地面真相。与其他方法[49,56]相比，在真实图像上，我们获得了更高的保真度重构结果，这些方法不依赖于2D或3D地面真相信息，也不依赖于实例或类的3D模型的先验知识。此外，我们还优于最近的一种先进方法[40]，该方法使用关键点监督对真实人脸进行3D重建，而我们的方法完全不使用外部监督。最后，我们证明了我们训练的人脸模型可以在不进行微调的情况下推广到非自然图像，如人脸绘画和卡通图画。

图1:从自然图像中无监督学习3D变形物体。左: 训练只使用对象类别的单一视图，完全没有额外的监督(即没有地面真实的3D信息、多个视图或对象的任何先验模型)。右图: 经过训练后，我们的模型从单张图像中以极好的保真度重建可变形物体实例的3D姿态、形状、反照率和光照。代码和演示在https://github.com/elliottwu/unsup3d。

相关工作

为了评估我们对基于图像的3D重建的大量文献的贡献，重要的是要考虑每种方法的三个方面:使用了哪些信息，做出了哪些假设，以及输出是什么。在下面和表1中，我们基于这些因素比较了我们对先前工作的贡献。

我们的方法使用一个对象类别的单视图图像作为训练数据，假设对象属于一个弱对称的特定类别(如人脸)，输出一个单目预测器，能够将该类别的任何图像分解为形状、反照率、光照、视点和对称概率。

结构来自运动 Structure from Motion。传统方法如Structure from Motion (SfM)[11]可以重建单个刚性场景的3D结构，每个场景的输入多个视图和视图之间的2D关键点匹配。这可以通过两种方式进行扩展。首先，单目（指单个摄像头）重建方法可以在没有二维关键点的情况下对单张图像进行密集的三维重建[74,62,20]。然而，它们需要多视角[20]或刚性场景的视频进行训练[74]。其次，非刚性SfM (NRSfM)方法[4,44]可以通过允许3D点在视图之间以有限的方式变形来学习重构可变形对象，但需要在训练和测试中对标注的2D关键点进行监督。因此，两种SfM方法都不能从单个视图的原始像素中重建可变形对象。

Shape from X。许多其他单眼线索被用作SfM的替代品或补充，用于从图像中恢复形状，如阴影[25,71]、剪影[33]、纹理[65]、对称性[41,12]等。我们的工作灵感来自于对称和阴影的形状。Shape from对称性[41,12,60,54]通过使用镜像图像作为虚拟第二视图，在对称对应可用的情况下，从单个图像重构对称对象。[54]还表明，使用描述符检测对称和对应是可能的。来自阴影的形状[25,71]采用兰伯氏反射率等阴影模型，利用非均匀光照重建表面。

指定类别的重建。基于学习的方法最近被用于从单一视图重构对象，无论是以原始图像的形式还是以2D关键点的形式(参见表1)。尽管这个任务是不确定的，但已经证明可以通过在训练数据之前学习一个合适的对象来解决[47,66,1,48]。人们提出了各种各样的监督信号来学习这些先验。除了直接使用3D地面真相，作者还考虑使用视频[2,74,43,63]和立体对[20,38]。其他方法使用带有2D关键点注释的单一视图[29,40,55,6]或对象掩码[29,7]。对于人体和人脸等对象，一些方法[28,18,64,15]已经学会了从原始图像重建，但从预定义的形状模型(如SMPL[36]或Basel[47])的知识开始。这些先前的模型是使用专门的硬件和/或其他形式的监督来构建的，这对于野生的可变形物体(如动物)通常是很难获得的，而且在形状的细节方面也有限制。

直到最近，才有作者试图从原始的、单目的视角中学习物体类别的几何结构。Thewlis等人[58,59]使用等方差来学习密集的地标，从而恢复物体的2D几何形状。DAE[52]学会了通过对带有小瓶颈嵌入的自编码器进行严格约束来预测变形场 a deformation field，并在后处理中[49]将其提升到3D，他们进一步分解反照率和阴影的重建，得到与我们相似的输出。

对抗学习被认为是一种产生对一个物体的新看法的方法。其中一些方法从3D表示开始[66,1,75,48]。Kato等人[30]在原始图像上训练一个鉴别器，但使用视点作为附加监督。HoloGAN[42]只使用原始图像，但不能获得显式的3D重建。Szabo等人[56]使用对抗训练来重建物体的3D网格，但没有对其结果进行定量评估。Henzler等人[23]也从原始图像中学习，但只对白色背景中包含对象的图像进行了实验，这类似于用2D剪影进行监督。在4.3节中，我们与[49,56]进行了比较，并展示了更高保真度的优越重建结果。由于我们的模型从内部3D表示生成图像，一个基本组件是可微渲染器。然而，在传统的渲染管道中，跨越遮挡和边界的梯度没有定义。因此提出了几种软松弛方法[37,31,34]。这里，我们使用[31: Neural 3d mesh renderer. In Proc. CVPR, 2018]的实现。

表1:与选定的先前工作的比较:监督、目标和数据。I:图像，3DMM: 3D变形模型，2DKP: 2D关键点，2DS: 2D剪影 silhouette，3DP: 3D点，VP:视点，E:表情，3DM: 3D网格，3DV: 3D体积，D:深度，N:法线，A:反射率，T:纹理，L:光。f也可以在后处理中恢复A和L。

3 方法

图2: photo-几何自动编码。我们的网络Φ将输入的图像I分解为深度、反照率、视点和光照，以及一对置信度图。训练它在没有外部监督的情况下重构输入。

给定一个对象类别(如人脸)的无约束图像集合，我们的目标是学习一个模型Φ，该模型接收对象实例的图像作为输入，并将其作为输出生成分解为3D形状、反照率、光照和视点，如图2所示。由于我们只有原始图像可供学习，所以学习目标是基于（图像）重建的: 即对模型进行训练，使四个因素的组合能够返回一个输入图像。这导致了一个 autoencoding pipeline，其中的 feactor 由于它们的重新组合方式，具有显式的photo-几何意义。

为了在完全的无监督的情况下学习这种分解，我们使用了许多对象类别是双边对称的这一事实。然而，对象实例的外观从来都不是完全对称的。不对称产生于形状变形、不对称反照率和不对称照明。我们采用两种方法来解释这些不对称。首先，我们显式地建模非对称照明。其次，对于输入图像中的每个像素，我们的模型还估计一个置信度评分，该评分解释了像素在图像中具有对称对应物的概率(参见图2中的conf σ, σ’)。下面几节将描述如何实现这一点，首先介绍照片几何自动编码器(第3.1节)，然后介绍对称性如何建模(第3.2节)，然后介绍图像形成的细节(第3.3节)和补充感知损失(第3.4节)。

3.1. Photo-geometric autoencoding

讨论: 通过将反照率解释为纹理而不是物体的反照率，照明的效果可以被纳入到反照率a中。然而，有两个很好的理由避免这样做。首先，反照率通常是对称的，即使光照导致相应的外观看起来不对称。将它们分开可以让我们更有效地结合下面描述的对称约束。其次，阴影为潜在的3D形状提供了额外的线索[24,3]。特别是，与[52]最近的工作不同(在[52]中，阴影图是独立于形状预测的)，我们的模型基于预测的深度计算阴影，相互约束。

3.2. Probably symmetric objects

利用对称进行3D重建需要识别图像中的对称对象点。这里我们隐式地这样做，假设深度和反照率，在一个标准框架中重构，是关于一个固定的垂直平面对称的。这种选择的一个重要有益的副作用是，它帮助模型发现对象的“规范视图”，这对重构[44]很重要。

\(\sigma\) 置信图和原图等大，表示模型的 “aleatoric uncertainty ”，任意不确定性，个人理解为方差。
下面提到，\(\sigma'\) 也是和原图等大的置信图，表示不对称的可能性
也就是这两个map可以决定对不对称（\(\sigma'\)）和多大程度上不对称（\(\sigma\)）

损失可以解释为: the negative log-likelihood of a factorized Laplacian distribution on the reconstruction residuals（重建的残差上，分解的拉普拉斯分布的，负对数似然）。优化似然使模型自校正，得以学习有意义的置信图[32]。建模不确定性通常是有用的，但在我们的情况下，当我们考虑“对称”重建\(\hat I'\) 时尤其重要，我们使用相同的损失\(L(\hat I', I,\sigma')\)。

最关键的是，我们使用网络来估计，同样从输入图像I，第二个置信度映射o'。这个置信度映射允许模型学习输入图像的哪些部分可能不是对称的。例如，在图2所示的某些情况下，人脸上的头发是不对称的（不对称的刘海），σ’可以赋予对称性假设不满足的头发区域较高的重建不确定性。注意，这取决于考虑的具体实例，并且由模型本身学习。

总的来说损失如下：

3.3. Image formation model

3.4. Perceptual loss

L1损失函数Eq.(3)对小的几何缺陷很敏感，容易导致模糊重建。我们添加了一个感知损失项来缓解这个问题

实验

与基线的比较。表2使用BFM数据集比较了我们的方法、一个全监督基线和两个基线得到的深度重构质量。监督基线是我们训练的模型的一个版本，用于使用L1损失回归地面真相深度图。普通基线预测恒定的均匀深度映射，这提供了性能下限。第三个基线是一个常数深度图，通过平均测试集中所有的地真深度图得到。我们的方法在很大程度上优于其他方法两个恒定的基线和方法监督训练的结果。在第三条基线(可以访问GT信息)上的改进证实了模型学习了特定于实例的3D表示。

实验中还对“该像素是否对称”的置信度map \(\sigma'\) 进行可视化：

比较有意思的是从艺术作品里的3D重建，由于不需要先验知识也不需要多视角图片，因此可以基本尊重原图（如果它是对称的）地重建为3D：

标签：反照率,视图,图像,对称,3D,重建
From： https://www.cnblogs.com/ll2f/p/16909247.html