首页 > 其他分享 >3D Diffusion模型来了!OpenAI出品,已开源

3D Diffusion模型来了!OpenAI出品,已开源

时间:2023-04-21 12:39:14浏览次数:44  
标签:Diffusion Point 模型 生成 OpenAI https 3D


3D Diffusion模型来了!OpenAI出品,已开源_3D

文|天于刀刀

2022年不愧是 AIGC 行业元年。

伴随着 ChatGPT 的大火使得谷歌一周之内改口“会认真评估 ChatGPT 对搜索引擎的影响”,OpenAI 在 3D 图像生成领域进一步放出了大招开源项目“Point-E” [1],可玩程度不下于 ChatGPT!

简单来说,用户可以输入一连串文字 prompt 内容,只需要短短 18 秒,模型就会生成一个 3D 点云图![2]


3D Diffusion模型来了!OpenAI出品,已开源_人工智能_02

这种快速出图极速反馈的特性使得 Point-E 成为了当下运行速度最快和对算力需求最小的生成模型。

想象一下之前 AI 作图也都需要以分钟级别进行等待,现在只需要毫秒级的等待就能获得一个 3D 模型,这不得不说是一次业界进步!

Point-E 详解

在文章中作者详细阐述了 Point-E 模型的工作原理,一共分为两步走:

  1. GLIDE [3] 负责根据文字提示生成平面图像( text-to-image );
  2. CLIP [4] 基于平面图像生成 3D 点云图 ( image-to-3D )。

这样的工程设计极大地减少了对于难以获取的 3D 数据集的依赖,同时也充分地利用了现有的强大的文字转图片模型,增加了系统的可复制性。

值得注意的是,GLIDE 和 CLIP 都是 OpenAI 之前在图像生成领域的明星开源项目,而 Point-E 则相当于是基于工具库的一个微创新,专门针对轻量级生成领域准备的手术刀式的模型。


3D Diffusion模型来了!OpenAI出品,已开源_人工智能_03

任何成功的深度学习模型都离不开一个优秀的训练集,作为一个 3D 生成模型的训练集,最终的训练集包含 2D 渲染图和 3D 点云图。

  1. 首先,收集几百万个不同质量不同格式的 3D 模型,通过一系列工作流(牵涉到 Blender 的使用)输出尽可能同样大小和光感的 3D 模型,并且每个模型都拥有20个不同角度的 2D 渲染图;
  2. 基于 2D 渲染图进一步生成 3D 点云图;
  3. 通过 CLIP 模型进行聚类分析,将过于平面的和低质量的模型删除后,得到模型训练集。

在得到训练集后,作者选择了 fine-tuning 现有的 GLIDE 模型处理文字转图片任务,以及基于 transformer 和 CLIP 模型处理图片转 3D 任务。


3D Diffusion模型来了!OpenAI出品,已开源_3d_04

就像所有其他的扩散模型一样,Point-E 模型接受噪声向量并尝试对其进行降噪。输出直接作为输入反馈,直到满意为止。时间步长令牌也被输入以跟踪步数。

特别的,Point-E 的输出向量定义了点位置 (xyz) 和颜色 (rgb) 的 3D 点云。

此外,与其他扩散模型一样,Point-E 首先构建一个低分辨率的点云输出,随后由具有类似架构的升级模型对输出进行升级。

这也就意味着 Point-E 的输出精度可以随着输出点的增加而增加,作者希望最终该模型的输出精度可以达到“3D 打印”级别,从而成为一个真正的生产力工具


3D Diffusion模型来了!OpenAI出品,已开源_3D_05

风起 Text-to-3D

之前火到破圈的 AI 作画让无数人看到了 AIGC 的潜力,一个自然而然的进阶想法就是,如果生成 3D 模型会怎样?

于是谷歌在去年推出了 Dream Fields [5],前段时间一位华人建筑学小哥蒙胜宇(Simon Meng)制作的 colab 友好版本的 dreamfields-3D 正是基于这个模型。

紧接着谷歌在今年进一步推出了 DreamFusion [6],同样是致力于解决三维合成大规模标注数据缺失的问题,先基于文本提示生成 2D 图像,在训练优化一个神经辐射场 NeRF 模型。

3D Diffusion模型来了!OpenAI出品,已开源_人工智能_06

3D Diffusion模型来了!OpenAI出品,已开源_人工智能_07


3D Diffusion模型来了!OpenAI出品,已开源_3D_08

在这里我们不深究各个模型之间的优劣和技术之间的区别,单独聊一聊我对这一波 AIGC 浪潮的看法。

首先我认为这是一个不可避免,也无需避免的大趋势,正好比19世纪摄影技术的发展逐渐在艺术界引起艺术家们的讨论和反感一样,我们目前所处在的也正是这个科学技术发展而改变旧格局的时代。

当初为什么画家们反对摄影,因为当时画家谋生的一个重要手段就是给人们创作肖像画,而摄影技术的出现就是在砸他们的饭碗。

而现如今,我们回过头查看那段历史,我们可以发现照相机的出现彻底将绘画从为人们塑像的功能中解放了出来,艺术家们不需要考虑画面是否足够真实,相反画家们开始向人类的内心世界进发,从而造就了19世纪末到20世纪初印象画派杰出的艺术成就。

另一方面,随着摄影分离派在20世纪初纽约291艺廊的活动,摄影也逐渐被更广大的社会群体所接纳。至此,摄影与绘画的关系在这半个世纪的时间里从相爱相杀走向稳定的各自精彩,人类迎来了新时代。


3D Diffusion模型来了!OpenAI出品,已开源_Text_09

AI 创作也不外乎于此,它们是“工具”。

我在试玩 ChatGPT 和 Point-E 的时候,常常抱着咖啡坐在屏幕前,傻呵呵地看着模型给出一个生成结果,然后再接着想一个新的 prompt 输入,此过程循环往复让我感到极为上瘾并乐此不疲。

这让我想到了小时候放学回家路上捡到了一根异常和手的树枝,一路上左挥右甩爱不释手,拿回家后交给老妈加工一下,这就是我家小木棍的来历。

垃圾满了捅一下,东西掉到床下扫一下,小孩皮了抽一下,大家用了都说好。

作为人类我们本质上就是要创造工具、利用工具。

我还没忘记所谓的“元宇宙”概念,如果我们拥有了批量低成本获得 3D 模型的方法,也许每个人都能构建一个属于自己的“元宇宙”。

OpenAI 和谷歌公司提供的这些模型就好比是一个一个不同用处的工具,伴随着 ChatGPT 的出现,我们可以看到 OpenAI 正在逐渐布局 toC 产业。

说不定在不远的将来,我们能够真正作为用户,去参与这一次新的工具改革的浪潮。

3D Diffusion模型来了!OpenAI出品,已开源_Text_10

3D Diffusion模型来了!OpenAI出品,已开源_点云_11

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。


 

3D Diffusion模型来了!OpenAI出品,已开源_Text_12

[1] Point cloud diffusion for 3D model synthesis, https://github.com/openai/point-e

[2]Point-E demo: text to 3D, https://huggingface.co/spaces/openai/point-e

[3] GLIDE: a diffusion-based text-conditional image synthesis model, https://github.com/openai/glide-text2im

[4]Contrastive Language-Image Pretraining, https://github.com/openai/CLIPngface.co/spaces/openai/point-e

[5]Zero-Shot Text-Guided Object Generation with Dream Fields, http://arxiv.org/abs/2112.01455

[6]DreamFusion: Text-to-3D using 2D Diffusion, https://arxiv.org/abs/2209.14988

[7]AI 会改变游戏美术吗?, https://www.gcores.com/radios/154838

标签:Diffusion,Point,模型,生成,OpenAI,https,3D
From: https://blog.51cto.com/xixiaoyao/6212464

相关文章

  • D3D12 实战 基础框架
    前言​ 本系列将用D3D12实现众多实时渲染算法,包括正向渲染、延时渲染、光线追踪,本篇将介绍以后常用到的基本框架​ 笔者会贴出重要的实现,且解释这些代码的作用,不过不会深入讲解其实现原理具体的还需读者自行学习实现Win32Application​ Win32Application主要用于处理Win32窗......
  • ChatGPT闲谈——火出圈的为什么是 OpenAI?
    ChatGPT走入大众视野之后,AIGC行业迎来了爆发,尤其是上个月,仿佛每一天都可能是「历史性」的一天。现在各大网站已经有非常多的优秀创作者进行总结和分析,都是值得一阅的好文。今天本文也分享了关于ChatGPT的看法,有谈到技术,也有关于ChatGPT的闲谈,看完这篇文章,相信你会对ChatGPT有......
  • mac使用Stable Diffusion基础篇
    准备工作提前安装git.python等必要工具 1、git拉取WebUI仓库 gitclonehttps://github.com/AUTOMATIC1111/stable-diffusion-webui2、下载StableDiffusionModelshttps://huggingface.co/CompVis/stable-diffusion-v-1-4-original  3、启动下载完成后,把下载的s......
  • 最新版本 Stable Diffusion 开源 AI 绘画工具之中文自动提词篇
    目录......
  • 3DCAT实时云渲染助力广府庙会元宇宙焕新亮相,开启线上奇趣之旅!
    超400万人次打卡,商圈营业额逾3.6亿元,2023年广府庙会于2023年2月11日圆满落幕。活动期间,佳境美如画,融合VR、AR、虚拟直播等技术的广府庙会元宇宙焕新亮相,群众只需点击一个简单的链接或扫码,即可在线漫游丰富的广府场景,并可体验元宇宙直播观看精彩庙会内容,足不出户实现身临其......
  • 本地升級stable-diffusion diffuser docker CUDA11.7 RTX2060
    1.0前言本地搭建stable-diffusiondiffuserdockerCUDA10.2RTX2060上次安裝的cuda10.2太舊了,升級cuda11.7順便填一下漏了的點。2.0卸載sudoapt-getremove--purge'^nvidia-.*'sudoapt-getremove--purge'^libnvidia-.*'sudoapt-getremove--purge'^cuda-.*&......
  • d3dx9_24.dll文件缺少解决方法
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或者损坏了,这时你只需下载这个d3dx9_24.dll文件进行安装(前提是找到适合的版本),当我们执行某一个.exe程序时,相应的D......
  • osgb可以转3ds、obj、gltf或者dxf吗?然后在三维建模软件里对模型进行修改后再转回osgb?
     参考:https://blog.csdn.net/qq_35996394/article/details/125440542>>将模型/场景从Houdini导出到three.js?:https://www.wp2.cn/?p=51668>>houdini导入gltf提示noentries。。:https://www.shenyecg.com/Article/436412 怎么导入gltf模型呢?>>建模工具千千万,为何独选Houdini?:h......
  • 安装stable diffusion
     suuseradd-msd passwdsdsusdmkdir-p/datacd/datayuminstallgit git clonehttps://github.com/AUTOMATIC1111/stable-diffusion-webui.gitwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh--no-......
  • 在MacOS下使用Unity3D开发游戏
    第一次发博客,先发一下我的游戏开发环境吧。去年2月份买了一台MacBookPro2021M1pro(以下简称mbp),这一年来一直在用mbp开发游戏。我大致分享一下我的开发工具以及使用体验。1、Unity官网链接:https://unity.cn/releases我一般使用的Applesilicon版本的,支持M1芯片,无需转译。Un......