首页 > 其他分享 >Stable Fast 3D技术解析 - Stability AI推出0.5秒将图片转为3D模型

Stable Fast 3D技术解析 - Stability AI推出0.5秒将图片转为3D模型

时间:2024-08-06 16:56:36浏览次数:12  
标签:AI SF3D UV 0.5 网格 Fast Stable 3D

一、介绍

Stable Fast 3D,由 Stability AI 推出,是一项颠覆性的 3D 建模技术,它通过 AI 算法将单张图片迅速转换为高质量的 3D 模型,极大地缩短了传统 3D 建模的时间,同时保持了模型的细节和真实感。

关键要点

  • Stable Fast 3D 能在仅 0.5 秒内从单张图片生成高质量的 3D 资产。

  • Stable Fast 3D 建立在 TripoSR 的基础上,具有显著的架构改进和增强能力。

  • 该模型适用于游戏和虚拟现实开发者,以及零售、建筑、设计和其他图形密集型专业人士。

  • 该模型可在 Hugging Face 上获取,并根据 Stability AI 社区许可发布。

  • 可以在 Stability AI API 和 Stable Assistant 聊天机器人上轻松访问模型,并在 3D 查看器中分享你的 3D 创作,并在增强现实中与它们互动。开始免费试用。

视频封面

二、技术架构与网络设计

2.1 模型概览

MeoAI技术组来带大家速览模型的关键点,SF3D(Stable Fast 3D)基于TripoSR方法,该方法使用大型基于变换器(transformer)的网络从单张图像中输出基于Triplane的3D表示。TripoSR在没有显式3D监督的情况下,通过多视图图像数据集进行训练。在TripoSR中,图像通过DINO编码,然后通过变换器网络生成64×64分辨率的3D三角平面。三角平面特征随后被解码为RGB颜色,并使用标准的NeRF渲染方法生成多个视图用于训练。

SF3D基于TripoSR,通过改进的Transformer网络预测更高分辨率的三平面,减少采样伪影;通过材料估计网络预测材料属性,处理物体的反射特性;通过光照预测解决光照解纠缠问题,输出无阴影的均匀物体;通过网格提取和细化预测顶点偏移和表面法线,得到更平滑的输出形状;以及通过快速UV展开和导出模块,生成低多边形网格和高分辨率纹理。

2.2 模型架构详解

SF3D提出了对TripoSR的几个改进,以在不同方面提高输出质量。SF3D包含五个主要组件:

(1)增强的变压器网络(Enhanced Transformer Network):

  • 作用:该模块使用改进的DINOv2网络来提取图像特征,并生成更高分辨率的Triplane(三平面)表示,以减少重建过程中的锯齿效应。

  • 原理:通过提高Triplane的分辨率,可以捕捉到图像中更多的细节,从而生成更平滑、更准确的3D网格模型。相比于TripoSR使用的64×64分辨率的Triplane,SF3D通过线性复杂度的方式生成了96×96分辨率的Triplane,并通过特征重排进一步提升到384×384分辨率,从而减少了网格提取中的锯齿效应,并提高了几何形状的准确性

(2)材料估计网络(Material Estimation Network):

  • 作用:该模块预测物体的金属性和粗糙度参数,以增强输出网格的外观。

  • 原理:通过预测非空间变化的金属性和粗糙度值,可以显著提高网格预测的视觉质量,特别是在处理反射物体时。为了稳定训练并避免直接回归导致的训练崩溃(即网络总是预测粗糙度值为0.5,金属度值为0),SF3D采用概率预测方法,预测Beta分布的参数,并在训练过程中最小化对数似然。

  • 在推理和训练过程中,SF3D计算分布的模态,而不是采样分布。

(3)光照预测(Illumination Prediction):

  • 作用:该模块预测输入图像中的光照信息,以实现光照的解耦,从而生成无阴影的均匀物体。

  • 原理:Light Net使用从Transformer输出的96x96分辨率的三平面,通过2个卷积层、最大池化和最终的MLP来输出Spherical Gaussian(SG)照明图的灰度振幅值。并输出Spherical Gaussian(SG)光照模型的幅度值,以实现延迟物理渲染。SF3D还引入了光照去调制损失,以确保在完全白色的Albedo上,物体的光照与输入图像的亮度相匹配。

(4)网格提取和细化(Mesh Extraction and Refinement):

  • 作用:该模块将估计的Triplane转换为网格,并通过预测顶点偏移和世界空间顶点法线来细化网格,以减少网格提取的伪影。

  • 原理:通过使用DMTet(differentiable Marching Tetrahedra,可微分的行进四面体),可以生成高质量的网格。为了减少网格提取中的阶梯效应,SF3D引入了两个新的MLP头,分别用于预测顶点偏移量和世界空间顶点法线。通过使用小分裂解码器MLP,SF3D提高了性能和效率。为了稳定训练,SF3D使用球面线性插值(slerp)在几何法线与预测法线之间进行插值,可以进一步提高网格的平滑度和细节。

(5)快速UV展开和导出模块(Fast UV-Unwrapping and Export):

  • 作用:该模块将最终的3D网格和相应的UV贴图导出,以生成低多边形网格和高分辨率纹理。

  • 原理:导出过程包括快速UV展开、烘焙世界位置(bake the world position)和占用到UV贴图,以及查询Albedo(反照率)和 surface normals(表面法线)。

  • 为了实现快速UV展开,SF3D提出了基于立方体投影的展开方法(a Cube projection-based unwrappingmethod),该方法并行化,每个网格面可以独立决定投射到哪个立方体面上。

  • 为了处理潜在的遮挡问题,SF3D通过2D三角形-三角形交点测试(2D triangle-triangle intersection tests)来检测UV贴图中的遮挡,并根据深度排序来分配UV坐标。

  • 最终,SF3D将图像估计器的金属性和粗糙度值与烘焙的世界位置和占用数据一起打包到GLB文件中,以供快速渲染和使用。

通过这些模块的协同工作,SF3D能够从单张图像快速生成高质量的3D网格模型,同时保持了快速的生成速度。

三、项目地址

下面的各个链接,请阅读原文。

  • 项目官网:

  • 在线Demo:

  • GitHub仓库:

  • arXiv技术论文:

  • YouTube视频:

点击下方链接阅读原文。

Stable Fast 3D技术解析 – Stability AI推出0.5秒将图片转为3D模型icon-default.png?t=N7T8http://​www.meoai.net/stable-fast-3d.html

四、如何使用

  • 用户首先上传一个物体的单张图片。然后 Stable Fast 3D 迅速生成一个完整的 3D 资产,包括:

  • UV 展开网格

  • 材质参数

  • 减少光照烘焙的反照率颜色

  • 可选的四边形或三角形重新网格化(仅增加 100-200 毫秒的处理时间)

Stable Fast 3D 前所未有的速度和质量使其成为 3D 工作快速原型制作的宝贵工具,适用于游戏和虚拟现实中的企业和独立开发者,以及零售、建筑和设计领域。

  • 你也可以在 Stability AI API 和 Stable Assistant 聊天机器人上轻松使用该模型,你可以在 3D 查看器中分享你的 3D 创作,并在 AR(增强现实(WebXR)兼容设备)中与它们互动。

五、应用案例

Stable Fast 3D 在游戏和电影制作中有多种应用案例。

  • 在以实验为关键的前期制作中使用快速推理时间

  • 游戏的静态资产(背景对象、杂物、家具)

  • 电子商务的 3D 模型

  • 快速为 AR/VR 创建模型

六、速度与质量的结合

Stable Fast 3D 在几个关键领域超越了竞争对手:

  • 无与伦比的速度:在具有 7GB VRAM 的 GPU 上每生成一个 3D 资产仅需 0.5 秒,或在 Stability AI API 上接近一秒钟

  • 高质量的 UV 展开网格和材质参数

  • 减少纹理中的光照纠缠

  • 能够生成额外的材质参数和法线贴图

与之前的 SV3D 模型相比,Stable Fast 3D 在保持高质量输出的同时,提供了显著减少的推理时间 - 0.5 秒对比 10 分钟。

七、总结

Stable Fast 3D 技术以其超快的生成速度和高质量的输出,为 3D 建模领域带来了革命性的变化。随着技术的不断发展和优化,预计将进一步推动相关行业的创新和应用。

创作不易,如果有用,欢迎点赞、分享、在看,一起分享AI~。

参考文献:https://arxiv.org/abs/2408.00653

标签:AI,SF3D,UV,0.5,网格,Fast,Stable,3D
From: https://blog.csdn.net/qq_26303031/article/details/140950855

相关文章

  • VannaAI(带有 Ollama 和 ChromaDB)示例程序在训练模型步骤失败
    我开始测试VannaAI,并且我正在运行一个基于使用Ollama、ChromaDB为Postgres生成SQL的示例程序:fromvanna.ollamaimportOllamafromvanna.chromadbimportChromaDB_VectorStoreclassMyVanna(ChromaDB_VectorStore,Ollama):def__init__(self,confi......
  • 使用智能AI在农业养殖业中风险预警的应用
    一、前言之前写过一篇《物联网浏览器(IoTBrowser)-使用深度学习开发防浸水远程报警》文章,主要介绍了通过摄像头麦克风监测浸水报警器有无异常,当出现异常后进行紧急报警并推送微信通知,避免浸水导致房屋损失。基于深度学习和物联网技术继续探讨在农业养殖领域的应用和实践。 监......
  • 洛谷P1209修理牛棚 Barn Repair
    [USACO1.3]修理牛棚BarnRepair题目描述在一个月黑风高的暴风雨夜,FarmerJohn的牛棚的屋顶、门被吹飞了好在许多牛正在度假,所以牛棚没有住满。牛棚一个紧挨着另一个被排成一行,牛就住在里面过夜。有些牛棚里有牛,有些没有。所有的牛棚有相同的宽度。宽度为1自门遗失以后......
  • 看片神器,将本地视频通过AI自动生成字幕及翻译字幕
    迈信达音视频字幕软件(MaixindaSubtitle)是一款专注于自动化视频转录文本、字幕制作、字幕翻译的AI自动化字幕软件。通过AI一键生成本地音频与视频的字幕文件,及翻译字幕内容。使用AI提取音视频对话内容后翻译、生成字幕文件,可以低成本并高效地将任意语言的视频、音频转录并翻译为目......
  • 使用OpenAI大模型与中专API进行文本生成的实战教程
    引言在人工智能技术的快速发展中,大型语言模型(LLM)如OpenAI的GPT系列,已成为处理自然语言任务的强大工具。本文将介绍如何通过中专API(http://api.wlai.vip)调用OpenAI的大模型进行文本生成。我们将展示如何编写一个简单的Python脚本,实现与API的交互,并生成高质量的文本内容。环......
  • #GPT-4o mini 来袭:开发者如何驾驭新一代AI模型?#
    要有效驾驭GPT-4oMini这一新一代AI模型,开发者需要注意以下几个关键点:理解模型特性:GPT-4oMini以高效性和精确性著称,这意味着在项目中使用时,应充分利用其高效率来减少计算时间,同时确保输出的准确度。API集成:开发者需要熟悉OpenAI提供的API文档,学会如何通过API调用来......
  • AI宝宝辅食助手,你的私人营养师!
    本文由ChatMoney团队出品介绍说明亲爱的家长们,尤其是那些新手爸爸妈妈们,你们是否在为宝宝的辅食问题而烦恼?不知道该什么时候开始添加辅食,不知道哪些食物适合宝宝,担心营养不够或者过敏问题?别担心,今天我要介绍一个超级贴心的小帮手——AI宝宝辅食助手!......
  • AIMP音频播放器:音质与便捷的完美结合,速来围观!
    前言在浩瀚的数字音乐海洋中,你是否厌倦了那些千篇一律、功能单一的音频播放器?嘿,小江湖今天要带你探索一个与众不同的音乐秘境——AIMP,一个让耳朵怀孕、让心灵起舞的音乐神器!想象一下,一个播放器,它不仅免费,还藏着无数让人惊喜的宝藏功能。它不只是播放音乐那么简单,更像是一个懂......
  • AI 汹涌而至!三波冲击下将淘汰大部分程序员
    作者:老余捞鱼原创不易,转载请标明出处及原作者。写在前面的话:    最近到处都能听到“人工智能会不会在不久的将来取代程序员”的争论。本人的观点为:人工智能将会取代程序员,本文将对此予以阐述。(注:此处所言的取代程序员,意指大多数,并非百分之百的完全取代,亦非一次性......
  • AISING2020E 题解
    blog。没题解就来写一篇捏。显然\(L_i>R_i\)的人都想去左边(记为LFT人),\(L_i<R_i\)的人都想去右边(记为RHT人),\(L_i=R_i\)的人可以摆烂。(LFT人与RHT人互相干扰,很难刻画。于是找性质。)存在最优方案,使得所有LFT人都在RHT人的左边。证明:如果有RHT人在LFT人的左边,......