3D人体重建新SOTA！清华&腾讯等重磅发布MagicMan：单一图像生成高质量人体新突破

标签：视角 SOTA MagicMan SMPL 生成新视角图像人体 3D

文章链接：https://arxiv.org/pdf/2408.14211
git链接：https://thuhcsi.github.io/MagicMan

亮点直击

提出MagicMan，一种旨在从单一参考图像生成高质量多视角人像的方法，从而促进无缝的3D人体重建。

提出了一种高效的混合多视角注意力机制，以生成更密集的多视角人像，同时保持更好的3D一致性。

引入了几何感知的双分支结构，在RGB和法线领域同时进行生成，通过几何线索进一步增强多视角一致性。

提出了一种迭代优化策略，逐步提高SMPL-X姿态的准确性和生成的多视角一致性，减少由于SMPL-X估计不可靠导致的几何畸形问题。

现有的单图3D人体重建方法存在训练数据不足导致的泛化性局限问题和缺乏多视角知识导致的3D不一致问题。今天给大家分享一种名为MagicMan的人体多视角扩散模型，该模型旨在从单一参考图像生成高质量的新视角图像。其核心思路是利用预训练的2D扩散模型作为生成先验以提升泛化能力，并将参数化的SMPL-X模型作为3D人体先验，以增强几何感知能力。

为了解决在实现高密度多视角生成以改进3D人体重建时保持一致性的关键挑战，首先引入了混合多视角注意力机制，以促进不同视角之间的高效且全面的信息交换。此外，还提出了一种几何感知的双分支结构，同时生成RGB图像和表面发现，通过几何信息的补充进一步增强一致性。为了解决因SMPL-X估计不准确导致的几何畸形问题，又提出了一种新颖的迭代优化策略，该策略逐步优化SMPL-X的准确性，并最终提高生成多视图的质量和一致性。大量实验结果表明，本文的方法在新视角合成和后续的3D人体重建任务中显著优于现有方法。

方法

如下图3所示，MagicMan以单张人体参考图像为输入，生成高质量且一致性良好的密集多视角图像（即20个视角）。为了利用大量互联网数据中丰富的人体图像先验，MagicMan采用了一个预训练的扩散模型作为主干网络，以单张参考图像和对应的SMPL-X姿态及视角作为生成条件。通过引入一种高效的混合注意力机制建立不同视角之间的联系，该机制包括在所有视角进行的1D注意力和在特定稀疏视角上进行的3D注意力来同时确保计算效率和多视角一致性。此外又提出了一种几何感知的双分支结构，补充了额外的几何信息以提升几何稳定性和一致性。最后但同样重要的是，提出了一种新颖的迭代优化策略，通过在多次迭代中更新SMPL-X姿态的准确性和生成多视角图像的质量，减少由于姿态估计不准确导致的几何畸形问题。

条件扩散模型

本文的主干网络是一个去噪UNet，继承了SD 1.5的结构和预训练权重。标准的SD UNet由下采样模块、中间模块和上采样模块组成。每个模块包含若干交织的卷积层、特征进行空间交互的自注意力层，以及与CLIP文本嵌入交互的交叉注意力层。本文去噪UNet需要接收多个噪声潜变量作为输入，并生成与参考图像一致的特定视角下的人体图像。因此，需要将参考图像和视角信息注入生成网络，并提供对应的SMPL-X参数化人体模板作为几何指导，以便获得更好的3D一致性。

参考UNet网络。 受到动画驱动最新进展的启发，本文利用和去噪UNet具有相同结构和初始化权重的参考UNet网络从参考图像中提取特征，以确保生成的图像与参考图像在语义和像素级别上都能保持一致。具体来说，本文使用参考UNet提取的特征代替了常用的CLIP嵌入，并且将原始交叉注意力层替换为参考注意力层，从而注入参考图像信息。

设和分别表示去噪UNet和参考UNet的对应特征图，其中是批量大小，是视角数量，是空间尺寸，是通道数。由于参考图像对所有视角都是共享的，因此参考网络的特征图被复制次。然后，将和都重新调整形状为，以进行后续的注意力计算。数学上表示为：

其中，⊕ 表示沿维度的拼接。

姿态引导和视角控制

本文从参考图像估计得到三维SMPL-X网格，并进一步渲染得到表面法线图和语义分割图，用于生成过程的姿态和视角控制。法线图和语义分割图由一个四层卷积层组成的编码器进行编码得到特征图，和采样的高斯噪声相加。另外，相机参数通过一个多层感知机编码为相机嵌入，和去噪时间步一起加入UNet网络，用于显式地提供视角控制信息。

混合多视角注意力

通过参考UNet网络提取参考图像特征，已经可以生成与参考图像一致的新视角人体图像。进一步需要在不同视角之间建立连接，以提升多视角图像之间的一致性。为了生成尽可能多的视角来捕捉全面的人体信息并保持高度的一致性，本文提出了一种新颖的混合注意力机制，以结合两种多视角注意力的优势，即1D注意力的高效性和3D注意力的全面性。

1D多视角注意力
首先，在参考注意力之后插入了一个额外的1D注意力层，以在不同视角之间建立连接。该模块以高度内存高效的方式增强了多视角的相似性，因为它仅在相同像素位置之间沿视角维度进行计算，从而在一次前向传播中实现最多20个视角的连贯生成。具体来说，特征图被重塑为以沿 N 维度计算自注意力，并且采用了相对位置编码来代替常用的正弦编码，以考虑相对视角的差异。

3D多视角注意力
仅依赖1D注意力会在视角发生较大变化后导致视角之间的内容漂移问题，因为1D注意力缺乏不同位置像素之间的交互，无法从其他视角找到相应的像素。因此，作者进一步集成了3D多视角注意力，促进在空间和视角维度上的更全面的信息共享。由于1D注意力建立了初步的交互，3D注意力可以限制在少量视角的子集上进行，而不会产生过多的内存开销。

具体来说，将去噪 UNet 的原始自注意力扩展为3D注意力。对于每个视角的重塑特征图，3D注意力在从其他视角中选取的 M 个视角的特征图上高效地进行，在和的所有像素之间计算。

通过混合1D-3D注意力机制，在不增加过多计算成本的情况下建立了不同视角之间更完整的连接，从而能够生成密集且一致的多视角图像。在实践中，为3D注意力选择的稀疏视角子集在不同的UNet模块中有所不同，充分利用了不同层次的信息。

几何感知双分支

由于在RGB域中难以捕捉到复杂的几何信息，作者引入了双分支结构来进行几何感知去噪，该结构同时生成空间对齐的表面法线图和RGB图像。具体来说，作者复制了原始UNet的RGB分支一个输入和输出模块，作为法线分支，其余模块则作为两个分支的共享模块，如图3(b)所示。通过这些设计，共享模块促进了跨域的特征融合。法线分支引入了几何信息，提升了生成结果的结构稳定性和几何一致性，而RGB分支则有助于生成更准确、细节丰富的法线图。

迭代优化

SMPL-X 是一种模板人类网格模型，由姿态参数、形状参数和表情参数参数化。

由于使用了SMPL-X渲染图像作为几何引导，其姿态的准确对于生成和重建质量及其重要。。然而，单目估计可能会产生与参考图像不匹配的SMPL-X姿态，导致生成扭曲的新视角图像，并最终3D重建中的几何畸形问题，如下图7(b)所示。另一方面，如果不使用SMPL-X参数直接生成新视角图像，通常可以获得与参考图像匹配的姿态，但是表现出较差的3D一致性，最终导致重建失败，如下图7(a)所示。因此，作者提出一种迭代优化策略，首先在没有SMPL-X引导下生成姿态相对准确的新视角图像，用于优化SMPL-X的姿态准确性；优化后的SMPL-X网格被重新用作新视角图像生成的条件，从而提升最终生成结果的3D一致性。

基于这些观察，在训练过程中随机以一定比例删除SMPL-X指导，使生成过程符合无分类器指导（CFG）。在推理阶段，引入了一个迭代优化过程，如算法1所述。最初，将CFG比例设置为0，实际上禁用了SMPL-X指导，以在生成的新视角图像中保留与参考图像匹配的更准确的姿态。然后使用这些图像更新SMPL-X参数。在随后的迭代中，逐渐增加CFG比例，以增强优化后SMPL-X估计的姿态指导，从而进一步提高3D一致性。

具体来说，迭代优化过程从使用PyMAF-X估计初始SMPL-X参数开始。在每次迭代中，作者使用当前的SMPL-X网格作为指导，应用相应的CFG比例生成人像图像。需要注意的是，在早期迭代中，比例保持较小，从而使生成的图像能够更好地匹配参考姿态。接下来，使用可微分渲染器生成SMPL-X网格的法线图和轮廓图，并根据相机姿态将3D关节点投影到2D关键点。然后，在所有生成的新视角图像的监督下，通过生成的法线图、轮廓图和从生成的新视角中检测到的2D关节点来优化SMPL-X参数。SMPL-X的优化通过最小化以下损失来执行：

优化后，SMPL-X 参数会更加准确并与参考图像对齐，并将在下一次迭代中以增加的 CFG 比例重新输入生成过程。

总之，在每次迭代过程中，SMPL-X 参数在所有生成的多视角图像的监督下进行优化，并且随着改进后的 SMPL-X 作为指导，多视角生成得到增强。

实验

训练数据
在 THuman2.1 数据集的 2347 个人体扫描数据上训练 MagicMan。使用弱透视相机在 20 个固定视角上渲染 RGB 和法线图像，这些视角均匀分布在从 0° 到 360° 的方位角上，分辨率为 512×512。

评估数据
在 THuman2.1 数据集中的 95 个扫描数据和 CustomHumans 数据集中的 30 个扫描数据上进行测试，并且还在自然场景中的图像上进行了评估，包括来自 SHHQ 数据集的 100 张图像以及从互联网上收集的 120 张具有不同姿势、服装和风格的图像。

评估指标
评估分为两个任务进行：

新视角合成。使用 PSNR、SSIM、LPIPS 和 CLIP 分数来比较生成的视图与相应视图的真实图像的差异。对于自然场景数据，作者计算生成的参考视图的 LPIPS 分数，并计算生成的新视角与输入图像的 CLIP 分数。
3D 人体重建。按照 Xiu 等人的方法，计算 Chamfer 距离、P2S 距离和 L2 法线误差 (NE)。

新视角合成

为了评估新视角合成的效果，将 MagicMan 与生成物体新视角的合成方法进行比较，如 Zero123、SyncDreamer、Wonder3D和 SV3D，以及具有身体先验的角色动画方法，如 Animate Anyone 和 Champ。MagicMan 生成的人体新视角图像和法线图的示例如图1所示，展示了 MagicMan 能够在各种姿势、服装和风格下生成高质量和3D一致性的人体新视角图像。图4展示了 MagicMan 与基线方法之间的定性比较。Zero123、SyncDreamer 和 SV3D 在未经过微调的情况下通常会生成扭曲的人像图像，这表明这些方法不适合直接用作涉及人体任务的 3D 先验。Wonder3D 仅生成六个视图，且分辨率为作者的一半，导致纹理细节丢失。缺乏身体先验还导致几何错误。由于缺乏几何感知，动画方法生成的不合理的身体结构有时会在前后视图之间产生歧义，如下图 4(c) 所示。此外，在视角大幅度变化时，它们在视图之间表现出明显的不一致性，如下图 4(e) 和 4(f) 所示。相比之下，本文的方法在生成人体密集新视角的同时，能够保持稳定的结构、一致的几何形状和纹理。

下表1中报告了定量比较结果。结果显示，除了在自然场景数据的参考视图重建中 LPIPS 稍高外，MagicMan 在像素级别和语义指标上均优于基线方法，这可能是由于 SV3D 在更高分辨率下前视细节较好。然而，新视角的 CLIP 分数表明，本文的方法在新视角合成方面显著优越。

3D 人体重建

下图5展示了重建的人体网格，并与包括前馈方法 PIFu、PaMIR、ICON、ECON 以及基于 SDS 的 DreamGaussian 和 TeCH在内的基线方法所生成的网格进行比较。无论是前馈方法还是基于 SDS 的方法，都无法为挑战性的姿势和服装生成合理的几何结构和详细一致的纹理，而作者的具有改进身体先验的 3D 感知扩散模型生成了密集且一致的多视图，支持了几何和纹理得到增强的可靠重建。

定量比较
与 PIFu、PAMIR、ICON 和 ECON 的定量比较结果见下表2，显示 MagicMan 在所有指标上都显著优于之前的方法。需要注意的是，为了公平比较，作者在实验中包括了迭代优化过程，并保留了 ICON、ECON 和 PAMIR 的 SMPL-X 优化操作。

消融实验和讨论

混合注意力机制
借助混合注意力机制，MagicMan 可以在训练中生成最多 20 个一致的多视角图像，推理时间为约 40 秒（使用 1 张 A100 GPU），而传统的 3D 注意力机制在相同的内存限制下只能生成 6 个视角，推理时间为约 60 秒。下图 6 说明了混合注意力的不同组件的有效性：(a) 基线模型在没有多视角注意力的情况下生成了不一致的视图。(b) 仅对选定视角进行 3D 注意力仍然会产生闪烁的布料图案。(c) 仅使用 1D 注意力会出现内容漂移，例如，随着视角变化逐渐变化的头发长度，表明仅通过 1D 注意力实现的信息交换提高了相似性，但对于全面一致性来说仍然不足。(d) 作者的完整模型使用混合注意力，在生成密集多视角图像时表现出最佳的一致性，这也在下表 3 的定量结果中得到了确认。

几何感知双分支
在上面图 6(e) 和表 3 的第 4 行中，去除法线分支会导致多视角一致性的下降，特别是在复杂几何变形中，例如布料层次和褶皱。作者包含法线预测的完整模型增强了几何感知，改善了结构和一致性。

迭代优化 研究者们进行了消融研究来验证迭代优化过程的有效性。如前面图 7(a) 所示，缺乏 SMPL-X 指导的生成结果看似具有准确的姿势，但由于没有 3D 先验，视图之间姿势不一致导致了重建中的严重伪影。直接使用估计的不准确 SMPL-X 网格作为姿势指导（如图 7(b) 所示）会导致生成的新视角图像扭曲，并且重建的网格（例如，缺失和分离的手和脚）由于 SMPL-X 和参考图像之间的冲突而出现不良形状。使用准确的真实 SMPL-X（如图 7(c) 所示）可以获得令人印象深刻的结果，但在实践中通常无法获得。作者的迭代优化过程通过连续迭代逐步改进了新视角的重建结果，使 SMPL-X 指导越来越准确，如图 7(e) 中的绿色气泡所示。最终优化后的多视角图像，包含准确的姿势和 3D 一致性，得到的结果与使用真实 SMPL-X 生成的结果相当。优化后的 SMPL-X 网格具有更准确的姿势和减少的深度歧义，表明预训练图像扩散模型中的丰富先验可以潜在地帮助人体估计。

与之前由 SMPLify、ICON (2022) 等引入的优化方法不同，这些方法基本上是在单视角 2D 平面上对齐 SMPL-X 网格，本文的方法充分利用了来自 3D 感知扩散模型的多视角输出，将 SMPL-X 网格与 3D 几何信息对齐，实现了在 3D 空间中更准确的姿势。

总结和展望

MagicMan，一种通过利用图像扩散模型作为 2D 生成先验和 SMPL-X 模型作为 3D 身体先验的方法，从单张参考图像生成人体的新视角。基于此，作者提出的高效混合多视角注意力机制确保了生成更密集的多视角图像，同时保持高的 3D 一致性，这一效果通过几何感知双分支进一步得到增强。此外，作者的新型迭代优化过程通过逐次迭代优化初始估计的 SMPL-X 姿势，以提高生成新视角的一致性，并缓解由不准确 SMPL-X 估计引起的几何畸形问题。广泛的实验结果表明，作者的方法能够生成密集、高质量且一致的人体新视角图像，这些图像也非常适合后续的 3D 人体重建任务。

参考文献

[1] MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

更多精彩内容，请关注公众号：AI生成未来

标签：视角,SOTA,MagicMan,SMPL,生成,新视角,图像,人体,3D
From： https://blog.csdn.net/AIGCer/article/details/142072124