文|天于刀刀
2022年不愧是 AIGC 行业元年。
伴随着 ChatGPT 的大火使得谷歌一周之内改口“会认真评估 ChatGPT 对搜索引擎的影响”,OpenAI 在 3D 图像生成领域进一步放出了大招开源项目“Point-E” [1],可玩程度不下于 ChatGPT!
简单来说,用户可以输入一连串文字 prompt 内容,只需要短短 18 秒,模型就会生成一个 3D 点云图![2]
这种快速出图极速反馈的特性使得 Point-E 成为了当下运行速度最快和对算力需求最小的生成模型。
想象一下之前 AI 作图也都需要以分钟级别进行等待,现在只需要毫秒级的等待就能获得一个 3D 模型,这不得不说是一次业界进步!
Point-E 详解
在文章中作者详细阐述了 Point-E 模型的工作原理,一共分为两步走:
- GLIDE [3] 负责根据文字提示生成平面图像( text-to-image );
- CLIP [4] 基于平面图像生成 3D 点云图 ( image-to-3D )。
这样的工程设计极大地减少了对于难以获取的 3D 数据集的依赖,同时也充分地利用了现有的强大的文字转图片模型,增加了系统的可复制性。
值得注意的是,GLIDE 和 CLIP 都是 OpenAI 之前在图像生成领域的明星开源项目,而 Point-E 则相当于是基于工具库的一个微创新,专门针对轻量级生成领域准备的手术刀式的模型。
任何成功的深度学习模型都离不开一个优秀的训练集,作为一个 3D 生成模型的训练集,最终的训练集包含 2D 渲染图和 3D 点云图。
- 首先,收集几百万个不同质量不同格式的 3D 模型,通过一系列工作流(牵涉到 Blender 的使用)输出尽可能同样大小和光感的 3D 模型,并且每个模型都拥有20个不同角度的 2D 渲染图;
- 基于 2D 渲染图进一步生成 3D 点云图;
- 通过 CLIP 模型进行聚类分析,将过于平面的和低质量的模型删除后,得到模型训练集。
在得到训练集后,作者选择了 fine-tuning 现有的 GLIDE 模型处理文字转图片任务,以及基于 transformer 和 CLIP 模型处理图片转 3D 任务。
就像所有其他的扩散模型一样,Point-E 模型接受噪声向量并尝试对其进行降噪。输出直接作为输入反馈,直到满意为止。时间步长令牌也被输入以跟踪步数。
特别的,Point-E 的输出向量定义了点位置 (xyz) 和颜色 (rgb) 的 3D 点云。
此外,与其他扩散模型一样,Point-E 首先构建一个低分辨率的点云输出,随后由具有类似架构的升级模型对输出进行升级。
这也就意味着 Point-E 的输出精度可以随着输出点的增加而增加,作者希望最终该模型的输出精度可以达到“3D 打印”级别,从而成为一个真正的生产力工具。
风起 Text-to-3D
之前火到破圈的 AI 作画让无数人看到了 AIGC 的潜力,一个自然而然的进阶想法就是,如果生成 3D 模型会怎样?
于是谷歌在去年推出了 Dream Fields [5],前段时间一位华人建筑学小哥蒙胜宇(Simon Meng)制作的 colab 友好版本的 dreamfields-3D 正是基于这个模型。
紧接着谷歌在今年进一步推出了 DreamFusion [6],同样是致力于解决三维合成大规模标注数据缺失的问题,先基于文本提示生成 2D 图像,在训练优化一个神经辐射场 NeRF 模型。
在这里我们不深究各个模型之间的优劣和技术之间的区别,单独聊一聊我对这一波 AIGC 浪潮的看法。
首先我认为这是一个不可避免,也无需避免的大趋势,正好比19世纪摄影技术的发展逐渐在艺术界引起艺术家们的讨论和反感一样,我们目前所处在的也正是这个科学技术发展而改变旧格局的时代。
当初为什么画家们反对摄影,因为当时画家谋生的一个重要手段就是给人们创作肖像画,而摄影技术的出现就是在砸他们的饭碗。
而现如今,我们回过头查看那段历史,我们可以发现照相机的出现彻底将绘画从为人们塑像的功能中解放了出来,艺术家们不需要考虑画面是否足够真实,相反画家们开始向人类的内心世界进发,从而造就了19世纪末到20世纪初印象画派杰出的艺术成就。
另一方面,随着摄影分离派在20世纪初纽约291艺廊的活动,摄影也逐渐被更广大的社会群体所接纳。至此,摄影与绘画的关系在这半个世纪的时间里从相爱相杀走向稳定的各自精彩,人类迎来了新时代。
AI 创作也不外乎于此,它们是“工具”。
我在试玩 ChatGPT 和 Point-E 的时候,常常抱着咖啡坐在屏幕前,傻呵呵地看着模型给出一个生成结果,然后再接着想一个新的 prompt 输入,此过程循环往复让我感到极为上瘾并乐此不疲。
这让我想到了小时候放学回家路上捡到了一根异常和手的树枝,一路上左挥右甩爱不释手,拿回家后交给老妈加工一下,这就是我家小木棍的来历。
垃圾满了捅一下,东西掉到床下扫一下,小孩皮了抽一下,大家用了都说好。
作为人类我们本质上就是要创造工具、利用工具。
我还没忘记所谓的“元宇宙”概念,如果我们拥有了批量低成本获得 3D 模型的方法,也许每个人都能构建一个属于自己的“元宇宙”。
OpenAI 和谷歌公司提供的这些模型就好比是一个一个不同用处的工具,伴随着 ChatGPT 的出现,我们可以看到 OpenAI 正在逐渐布局 toC 产业。
说不定在不远的将来,我们能够真正作为用户,去参与这一次新的工具改革的浪潮。
卖萌屋作者:天于刀刀
注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。