编者按:2022年,Diffusion model成为图像生成领域的重要发现,推动了AI绘画应用的爆发式发展。Diffusion模型相较于其他的图像生成模型,在所需数据更少的背景下,图像生成效果有明显提升。
本期IDP Inspiration,我们将和大家一起走进Diffusion的发展史。
以下是译文,Enjoy!
作者
编译
随着技术的进步,人工智能创造的艺术保真度得到了大大增强,文转图人工智能在今年爆发了。尽管像Stable Diffusion和OpenAI的DALL-E 2这样的系统存在许多争议,但包括DeviantArt和Canva在内的很多平台已经采用它们来制作创意工具,实现品牌的个性化,甚至创意新产品。
但这些系统的核心技术 - Diffusion - 的能力远远不止生成艺术作品,它还被一些研究小组用来制作音乐,合成DNA序列,甚至用于研制新药。
那么,究竟什么是Diffusion,为什么它与以前的技术水平相比有如此大的飞跃?我们需要来了解一下Diffusion的起源,以及它是如何随着时间的推移而发展成今天这样有影响力的。Diffusion的故事还没有结束——每个月都会出现技术的改进,尤其过去一两年出现了显著的进步。
Diffusion的诞生
你或许还记得几年前爆火的deepfaking——这些App将人们的肖像插入现有的图像和视频中,创造出看起来很真实的换脸视频。利用人工智能,这些App会将一个人的脸,或者在某些情况下,他们的整个身体插入到某个场景中,往往能够产生足够的说服力,骗过大多数人。
这App大多依靠一种叫做生成对抗网络的人工智能技术,简称GANs。GANs由两部分组成:一个从随机数据中产生合成内容(如图像)的生成器和一个试图区分合成内容和训练数据集中的真实内容的鉴别器。生成器和鉴别器互相配合提高生成或鉴别能力,直到鉴别器无法从合成的例子中分辨出真实的例子,此时其准确率已经高于预期的50%。
哈利-波特和霍格沃茨的沙雕,由Stable Diffusion生成。图片来源:Stability AI
好的GAN可以创建很多逼真的图片,例如虚构的公寓楼照片[1]。Nvidia几年前开发的StyleGAN,通过学习面部姿势、雀斑和头发等属性,可以生成虚构人物的高分辨率头像。除了生成图像之外,GANs还被应用于构建3D建模空间和绘制矢量草图[2],输出视频片段[3]以及语音[4],甚至还能利用乐器演奏样本生成歌曲。
不过,在实践中,GANs由于其结构而存在一些缺陷。生成器和鉴别器的同时训练本身就是十分不稳定的。有时生成器会 “崩溃”,输出许多看起来很相似的样本。GANs还需要大量的数据和计算能力来运行和训练,这使得它们难以进行扩展。
Diffusion是如何工作的
Diffusion的灵感来自于物理学——物理学中物质从高浓度区域向低浓度区域移动的过程,就像糖块在咖啡中的溶解。咖啡中的糖粒最初集中在液体的顶部,但逐渐变得分散。
Diffusion特别借用了非平衡热力学中的扩散,该过程随着时间的推移增加了系统的熵(或随机性)。比如气体最终会通过随机运动扩散开来,均匀地充满整个空间。同样,像图像这样的数据也可以通过随机添加噪声而转变为均匀分布。
Diffusion通过添加噪音慢慢地破坏数据的结构,直到除了噪音什么都不剩。
在物理学中,扩散是自发的和不可逆的——扩散到咖啡中的糖不能恢复到立方体的形式。但机器学习中的扩散系统旨在学习一种 “反向扩散” 过程来恢复被破坏的数据,获得从噪声中恢复数据的能力。
Diffusion已经存在了近十年,但是OpenAI最近的一项创新,即CLIP(Contrastive Language-Image Pre-Training的简称)使它们在日常应用中更加实用。CLIP对数据(例如图像)进行分类,根据它在给定的文本提示下被分类成某一类的可能性(例如:“花丛中的狗素描画”),对扩散过程的每一步进行“评分”。
在最开始的时候,会给数据一个非常低的CLIP分数,因为它大部分是噪声。但随着Diffusion从噪声中重建数据,它慢慢地接近于文本提示。可以用一个雕刻大理石的例子,就像一个雕刻大师告诉一个新手在哪里雕刻一样,CLIP引导Diffusion生成一个能给出更高分数的图像。
OpenAI将CLIP与图像生成系统DALL-E一起推出。从那之后,又推出了DALL-E的后继者DALL-E 2,以及诞生了像Stable Diffusion这样的开源替代品。
Diffusion能做什么?
那么,CLIP引导的Diffusion能做什么?正如前面所提到的,它们在生成艺术作品方面相当出色,从逼真的艺术作品到素描、油画等,几乎可以模仿任何艺术家的风格。事实上,有证据表明,它们会有针对性地反刍它们的一些训练数据。
但这些模型的天赋(尽管可能有争议)并没有到此为止。
研究人员还尝试使用引导式Diffusion来创作新音乐。Harmonai[5]是一个得到 Stability AI[6] 投资的公司,它发布了一个基于Diffusion的模型,通过对数百小时现有歌曲进行训练,可以输出音乐片段。最近,开发者Seth Forsgren和Hayk Martiros创建了一个被称为Riffusion的业余项目,该项目使用Diffusion巧妙地对音频的光谱图进行训练,以生成新的音乐。
除开音乐领域之外,一些实验室正试图将Diffusion应用于生物医学,希望能发现新的疾病治疗方法。正如《 MIT Tech Review》本月早些时候报道的那样[7],创业公司Generate Biomedicines和华盛顿大学的一个团队训练了一个基于Diffusion的模型,可以进行具有特定属性和功能的蛋白质设计。
这些模型以不同的方式工作。Generate Biomedicines公司通过解开构成蛋白质的氨基酸链来增加噪声,然后在研究人员指定的约束条件指导下,将随机链放在一起形成一个新的蛋白质。另一方面,华盛顿大学的模型从一个混乱的结构开始,并使用一个独立的AI系统来提供蛋白质碎片如何组合的信息来预测蛋白质结构。
他们已经取得了一些成果,华盛顿大学小组设计的模型找到了一种能够附着在甲状旁腺激素(控制血液中钙含量的激素)上的蛋白质,比现有药物更好。
同时,在OpenBioML[8],这是一个由Stability AI支持的项目,其将基于机器学习的方法引入生物化学的工作中,研究人员开发了一个名为DNA-Diffusion的系统,它能够生成细胞类型特异的调节性DNA序列(影响生物体内特定基因表达的核酸分子段)。如果一切按计划进行,DNA-Diffusion将通过文本指令生成调节性DNA序列,比如 “一个激活基因在X型细胞中达到最大表达水平的DNA序列” 和 “一个能够在肝脏和心脏中激活基因,但不在大脑中激活的DNA序列”。
Diffusion的未来可能是什么?一切皆有可能。现在研究人员已经将其应用于生成视频[9]、压缩图像[10]和合成语音[11]。这并不是说Diffusion最终不会被更有效、性能更强的机器学习技术所取代,就像GANs被Diffusion取代一样。但它拥有今天的辉煌是有原因的,Diffusion如果不是多功能的,那就什么都不是。
参考资料
- https://syncedreview.com/2019/02/27/from-faces-to-kitties-to-apartments-gan-fakes-the-world/
- https://venturebeat.com/2019/04/11/ai-sketches-cats-firetrucks-mosquitos-and-yoga-poses/
- https://venturebeat.com/2019/07/19/deepminds-ai-learns-to-generate-realistic-videos-by-watching-youtube-clips/
- https://venturebeat.com/2019/09/30/googles-highly-scalable-ai-can-generate-convincingly-humanlike-speech/
- https://www.harmonai.org/
- https://stability.ai/
- https://www.technologyreview.com/2022/12/01/1064023/biotech-labs-are-using-ai-inspired-by-dall-e-to-invent-new-drugs/
- https://techcrunch.com/2022/11/04/stability-ai-backs-effort-to-bring-machine-learning-to-biomed/
- https://arxiv.org/pdf/2204.03458.pdf
- https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-Diffusion-can-compress-images/
- https://arxiv.org/abs/2204.09934