Stable Fast 3D技术解析 - Stability AI推出0.5秒将图片转为3D模型

标签：AI SF3D UV 0.5 网格 Fast Stable 3D

一、介绍

Stable Fast 3D，由 Stability AI 推出，是一项颠覆性的 3D 建模技术，它通过 AI 算法将单张图片迅速转换为高质量的 3D 模型，极大地缩短了传统 3D 建模的时间，同时保持了模型的细节和真实感。

关键要点

Stable Fast 3D 能在仅 0.5 秒内从单张图片生成高质量的 3D 资产。
Stable Fast 3D 建立在 TripoSR 的基础上，具有显著的架构改进和增强能力。
该模型适用于游戏和虚拟现实开发者，以及零售、建筑、设计和其他图形密集型专业人士。
该模型可在 Hugging Face 上获取，并根据 Stability AI 社区许可发布。
可以在 Stability AI API 和 Stable Assistant 聊天机器人上轻松访问模型，并在 3D 查看器中分享你的 3D 创作，并在增强现实中与它们互动。开始免费试用。

视频封面

二、技术架构与网络设计

2.1 模型概览

MeoAI技术组来带大家速览模型的关键点，SF3D（Stable Fast 3D）基于TripoSR方法，该方法使用大型基于变换器（transformer）的网络从单张图像中输出基于Triplane的3D表示。TripoSR在没有显式3D监督的情况下，通过多视图图像数据集进行训练。在TripoSR中，图像通过DINO编码，然后通过变换器网络生成64×64分辨率的3D三角平面。三角平面特征随后被解码为RGB颜色，并使用标准的NeRF渲染方法生成多个视图用于训练。

SF3D基于TripoSR，通过改进的Transformer网络预测更高分辨率的三平面，减少采样伪影；通过材料估计网络预测材料属性，处理物体的反射特性；通过光照预测解决光照解纠缠问题，输出无阴影的均匀物体；通过网格提取和细化预测顶点偏移和表面法线，得到更平滑的输出形状；以及通过快速UV展开和导出模块，生成低多边形网格和高分辨率纹理。

2.2 模型架构详解

SF3D提出了对TripoSR的几个改进，以在不同方面提高输出质量。SF3D包含五个主要组件：

（1）增强的变压器网络（Enhanced Transformer Network）：

作用：该模块使用改进的DINOv2网络来提取图像特征，并生成更高分辨率的Triplane（三平面）表示，以减少重建过程中的锯齿效应。
原理：通过提高Triplane的分辨率，可以捕捉到图像中更多的细节，从而生成更平滑、更准确的3D网格模型。相比于TripoSR使用的64×64分辨率的Triplane，SF3D通过线性复杂度的方式生成了96×96分辨率的Triplane，并通过特征重排进一步提升到384×384分辨率，从而减少了网格提取中的锯齿效应，并提高了几何形状的准确性

（2）材料估计网络（Material Estimation Network）：

作用：该模块预测物体的金属性和粗糙度参数，以增强输出网格的外观。
原理：通过预测非空间变化的金属性和粗糙度值，可以显著提高网格预测的视觉质量，特别是在处理反射物体时。为了稳定训练并避免直接回归导致的训练崩溃（即网络总是预测粗糙度值为0.5，金属度值为0），SF3D采用概率预测方法，预测Beta分布的参数，并在训练过程中最小化对数似然。
在推理和训练过程中，SF3D计算分布的模态，而不是采样分布。

（3）光照预测（Illumination Prediction）：

作用：该模块预测输入图像中的光照信息，以实现光照的解耦，从而生成无阴影的均匀物体。
原理：Light Net使用从Transformer输出的96x96分辨率的三平面，通过2个卷积层、最大池化和最终的MLP来输出Spherical Gaussian（SG）照明图的灰度振幅值。并输出Spherical Gaussian（SG）光照模型的幅度值，以实现延迟物理渲染。SF3D还引入了光照去调制损失，以确保在完全白色的Albedo上，物体的光照与输入图像的亮度相匹配。

（4）网格提取和细化（Mesh Extraction and Refinement）：

作用：该模块将估计的Triplane转换为网格，并通过预测顶点偏移和世界空间顶点法线来细化网格，以减少网格提取的伪影。
原理：通过使用DMTet（differentiable Marching Tetrahedra，可微分的行进四面体），可以生成高质量的网格。为了减少网格提取中的阶梯效应，SF3D引入了两个新的MLP头，分别用于预测顶点偏移量和世界空间顶点法线。通过使用小分裂解码器MLP，SF3D提高了性能和效率。为了稳定训练，SF3D使用球面线性插值（slerp）在几何法线与预测法线之间进行插值，可以进一步提高网格的平滑度和细节。

（5）快速UV展开和导出模块（Fast UV-Unwrapping and Export）：

作用：该模块将最终的3D网格和相应的UV贴图导出，以生成低多边形网格和高分辨率纹理。
原理：导出过程包括快速UV展开、烘焙世界位置（bake the world position）和占用到UV贴图，以及查询Albedo（反照率）和 surface normals（表面法线）。
为了实现快速UV展开，SF3D提出了基于立方体投影的展开方法（a Cube projection-based unwrappingmethod），该方法并行化，每个网格面可以独立决定投射到哪个立方体面上。
为了处理潜在的遮挡问题，SF3D通过2D三角形-三角形交点测试（2D triangle-triangle intersection tests）来检测UV贴图中的遮挡，并根据深度排序来分配UV坐标。
最终，SF3D将图像估计器的金属性和粗糙度值与烘焙的世界位置和占用数据一起打包到GLB文件中，以供快速渲染和使用。

通过这些模块的协同工作，SF3D能够从单张图像快速生成高质量的3D网格模型，同时保持了快速的生成速度。

三、项目地址

下面的各个链接，请阅读原文。

项目官网：
在线Demo：
GitHub仓库：
arXiv技术论文：
YouTube视频：

点击下方链接阅读原文。

Stable Fast 3D技术解析 – Stability AI推出0.5秒将图片转为3D模型http://www.meoai.net/stable-fast-3d.html

四、如何使用

用户首先上传一个物体的单张图片。然后 Stable Fast 3D 迅速生成一个完整的 3D 资产，包括：
UV 展开网格
材质参数
减少光照烘焙的反照率颜色
可选的四边形或三角形重新网格化（仅增加 100-200 毫秒的处理时间）

Stable Fast 3D 前所未有的速度和质量使其成为 3D 工作快速原型制作的宝贵工具，适用于游戏和虚拟现实中的企业和独立开发者，以及零售、建筑和设计领域。

你也可以在 Stability AI API 和 Stable Assistant 聊天机器人上轻松使用该模型，你可以在 3D 查看器中分享你的 3D 创作，并在 AR（增强现实（WebXR）兼容设备）中与它们互动。

五、应用案例

Stable Fast 3D 在游戏和电影制作中有多种应用案例。

在以实验为关键的前期制作中使用快速推理时间
游戏的静态资产（背景对象、杂物、家具）
电子商务的 3D 模型
快速为 AR/VR 创建模型

六、速度与质量的结合

Stable Fast 3D 在几个关键领域超越了竞争对手：

无与伦比的速度：在具有 7GB VRAM 的 GPU 上每生成一个 3D 资产仅需 0.5 秒，或在 Stability AI API 上接近一秒钟
高质量的 UV 展开网格和材质参数
减少纹理中的光照纠缠
能够生成额外的材质参数和法线贴图

与之前的 SV3D 模型相比，Stable Fast 3D 在保持高质量输出的同时，提供了显著减少的推理时间 - 0.5 秒对比 10 分钟。

七、总结

Stable Fast 3D 技术以其超快的生成速度和高质量的输出，为 3D 建模领域带来了革命性的变化。随着技术的不断发展和优化，预计将进一步推动相关行业的创新和应用。

创作不易，如果有用，欢迎点赞、分享、在看，一起分享AI~。

参考文献：https://arxiv.org/abs/2408.00653

标签：AI,SF3D,UV,0.5,网格,Fast,Stable,3D
From： https://blog.csdn.net/qq_26303031/article/details/140950855