首页 > 其他分享 >Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了

Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了

时间:2024-08-09 11:25:15浏览次数:8  
标签:Diffusion Stability Transformer AI AIGC 乱码 Sora Stable

Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。

继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。

与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。以下是一些官方示例:

提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的天空施放宇宙咒语,咒语上写着 “Stable Diffusion 3”,由五彩缤纷的能量组成(Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy)

提示:电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着 “go big or go home” 的字样(cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)

提示:一幅画,画中宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里有 “stable diffusion” 的字样(a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words “stable diffusion”)

提示:黑色背景上变色龙的摄影棚特写(studio photograph closeup of a chameleon over a black background

此外,Stability AI 媒体主管也晒出了一些生成效果:

Stability AI 表示,Stable Diffusion 3 是一个模型系列,参数量从 800M 到 8B 不等。这个参数量意味着,它可以在很多便携式设备上直接跑,大大降低了 AI 大模型的使用门槛。

此外,Stability AI 还透露,他们和 Sora 一样,在新模型中采用了 diffusion transformer 架构,并在博客中链接了 William (Bill) Peebles 和谢赛宁合著的 DiT 论文。这篇论文目前的被引量是 201,今年有望大幅增长。

不过,现在,Stable Diffusion 3 还没有全面开放,权重也没有公布。团队提到,他们正在采取一些安全措施,防止不法分子滥用。

想要尝鲜的用户可以点击以下链接提交申请:https://stability.ai/stablediffusion3

该公司首席执行官 Emad Mostaque 在 X 平台的帖子中提到,在得到反馈并进行改进后,他们会把该模型开源。

很多人可能会好奇,这个 Stable Diffusion 3 和 DALL・E 3、Midjourney 比效果如何?有些人做了测试,看起来似乎没有拉开明显差距。不过,Stable Diffusion 3 是开源领域的希望。

值得注意的是,在 Stable Diffusion 3 发布的同一时间,外媒还传出了 Stability AI 旗下图像生成应用公司 Clipdrop 被收购的消息。总部位于巴黎的 Clipdrop 成立于 2020 年 7 月,使用开源 AI 模型允许用户生成和编辑照片。在 2023 年 3 月以未披露的金额出售给 Stability AI 之前,它已从 Air Street Capital 筹集了种子投资。当时,Clipdrop 表示它拥有超过 1500 万用户。但仅仅一年之后,Stability AI 就将它卖给了美国写作助理初创公司 Jasper。

有人评价说,Stable Diffusion 3 的发布就是在掩盖这个消息。和很多 AI 创业公司一样,Stability AI 面临的困境在于其以惊人的速度烧钱,但却没有明确的盈利途径。去年年底,该公司还传出了 CEO 可能被投资者赶下台的消息,公司本身可能也在寻求卖身。在这样的背景下,Stability AI 迫切地需要提振投资者信心。

路透社评价说,这笔交易标志着 Stability AI 战略的逆转。Emad Mostaque 在一份电子邮件声明中表示,这笔交易将使该公司能够继续专注于开发「尖端的开放模型」。在 Stable Diffusion 3 的相关博客中,该公司也强调,「我们对确保生成式人工智能开放、安全和普遍可及的承诺仍然坚定不移。」目前看来,Stability AI 的前途仍不明朗。

Stable Diffusion 3 背后的技术

Diffusion Transformer+Flow Matching

在博客中,Stability AI 公布了打造 Stable Diffusion 3 的两项关键技术:Diffusion Transformer 和 Flow Matching。

Diffusion Transformer

Stable Diffusion 3 使用了类似于 OpenAI Sora 的 Diffusion Transformer 框架,而此前几代 Stable Diffusion 模型仅依赖于扩散架构。

Diffusion Transformer 是 Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁最初在 2022 年底发布的研究,2023 年 3 月更新第二版。

论文探究了扩散模型中架构选择的意义,研究表明 U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 Transformer)取代。

论文标题:Scalable Diffusion Models with Transformers

论文链接:https://arxiv.org/pdf/2212.09748.pdf

具体来说,论文提出了一种基于 Transformer 架构的新型扩散模型 DiT,并训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性,各个型号的 DiT 都取得了不错的效果。

我们都知道,扩散模型的成功可以归功于它们的可扩展性、训练的稳定性和生成采样的多样性。在扩散模型的范围内,所使用的骨干架构存在很大差异,包括基于 CNN 的、基于 Transformer 的、CNN-Transformer 混合,甚至是状态空间模型。

用于扩展这些模型以支持高分辨率图像合成的方法也各不相同,现有方法或是增加了训练的复杂性,或是需要额外的模型,或是牺牲了质量。潜在扩散是实现高分辨率图像合成的主要方法,但在实践中无法表现精细细节,影响了采样质量,限制了其在图像编辑等应用中的实用性。其他高分辨率图像合成方法还有级联超分辨率、多尺度损失、增加多分辨率的输入和输出,或利用自调节和适应全新的架构方案。

基于 DiT 的启发,Stability AI 进一步提出了 Hourglass Diffusion Transformer (HDiT)。这是一种随像素数量扩展的图像生成模型,支持直接在像素空间进行高分辨率(如 1024 × 1024)训练。

这项工作通过改进骨干网络解决了高分辨率合成问题。Transformer 架构可以扩展到数十亿个参数,HDiT 在此基础上,弥补了卷积 U-Net 的效率和 Transformer 的可扩展性之间的差距,无需使用典型的高分辨率训练技术即可成功进行训练

论文标题:Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

论文链接:https://arxiv.org/pdf/2401.11605.pdf

研究者引入了一种「pure transformer」架构,获得了一种能够在标准扩散设置中生成百万像素级高质量图像的骨干结构。即使在 128 × 128 等低空间分辨率下,这种架构也比 DiT 等常见 Diffusion Transformer 骨干网络(图 2)的效率高得多,在生成质量上也具有竞争力。另一方面,与卷积 U-Nets 相比,HDiT 在像素空间高分辨率图像合成的计算复杂度方面同样具备竞争力。

Flow Matching

使用 Flow Matching 技术的意义则在于提升采样效率。

深度生成模型能够对未知数据分布进行估计和采样。然而,对简单扩散过程的限制导致采样概率路径的空间相当有限,从而导致训练时间很长,需要采用专门的方法进行高效采样。在这项工作中,研究者探讨了如何建立连续标准化流的通用确定性框架。

这项研究为基于连续归一化流(CNF)的生成建模引入了一种新范式,实现了以前所未有的规模训练 CNF。

论文标题:FLOW MATCHING FOR GENERATIVE MODELING

论文链接:https://arxiv.org/pdf/2210.02747.pdf

具体来说,论文提出了「Flow Matching」的概念,这是一种基于固定条件概率路径向量场回归训练 CNF 的免模拟方法。Flow Matching 与用于在噪声和数据样本之间进行转换的高斯概率路径的通用族兼容(通用族将现有的扩散路径归纳为具体实例)。

研究者发现,使用带有扩散路径的 Flow Matching 可以为扩散模型的训练提供更稳健、更稳定的替代方案。

此外,Flow Matching 还为使用其他非扩散概率路径训练 CNF 打开了大门。其中一个特别值得关注的例子是使用最优传输(OT)位移插值来定义条件概率路径。这些路径比扩散路径更有效,训练和采样速度更快,泛化效果更好。在 ImageNet 上使用 Flow Matching 对 CNF 进行训练,在似然性和采样质量方面的性能始终优于其他基于扩散的方法,并且可以使用现成的数值 ODE 求解器快速、可靠地生成采样。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

图片

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!

在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

这份完整版的AIGC全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费在这里插入图片描述

标签:Diffusion,Stability,Transformer,AI,AIGC,乱码,Sora,Stable
From: https://blog.csdn.net/2401_86065041/article/details/141057267

相关文章

  • Stable Diffusion WebUI v1.10.0重大更新,支持SD3!
    Hello,大家好!前不久,SDWebUI的作者AUTOMATIC1111终于把它更新到了v1.10.0,这次不仅修复以往的一些BUG,提升了一些性能,这次还支持了SD3_medium.safetensors模型以及SD3_LoRA模型,同时还支持T5系列的encoder模型,让我们一起来看看这次更新了哪些内容。更新内容总共有87项更新:1.......
  • Adobe又出黑科技!5秒Ai绘画出图? Stable Diffusion来了!
    据我所知2024有两款Ai神器爆火一款是大名鼎鼎的ChatGPT另外一款则是Ai智能绘图软件—StableDiffusion本期重点介绍StableDiffusion尤其最近抖音小红书刷屏的AI人物大部分都是这款软件做的【软件介绍】▼StableDiffution****人工智能神器含保姆级安装教程&使......
  • 扩散模型(Diffusion Model)——生成模型
    一、扩散模型介绍    扩散模型(DiffusionModel)是一种生成模型,最近在图像生成、视频生成、语音合成等领域取得了显著的进展。与传统的生成对抗网络(GAN)和变分自编码器(VAE)不同,扩散模型通过逐步将噪声添加到数据并反转这一过程来生成新样本二、扩散模型的基本原理扩散模......
  • AI绘画 Stable Diffusion后期处理—无需ControlNet也能轻松高清放大图像与老旧照片修
    大家好,我是设计师阿威分享了这么多期AI绘画StableDIffusion的入门教程和一些常用的插件玩法后,不知道大家有没有发现,SD还有一个功能,似乎没怎么用到过,它就是—后期处理。今天就给大家分享一下SD中的“后期处理”的常用玩法。后期处理可以选择「单张照片」、「批量处理......
  • 万字长文带你深度学习AI绘画工具 Stable Diffusion 保姆级实战,AI绘画入门必看实用性教
    大家好,我是设计师阿威今天给大家分享一下AI绘画工具StableDiffusion的实战教程,非常适合新手入门和巩固以往知识体系,同时我也准备了配套的学习资料,本教程没有难懂的理论,全是实操的截图,非常通俗易懂。本教程没有难懂的理论,全是实操的截图,非常通俗易懂。认真看完这篇教程,能......
  • java httpclient发送中文乱码
    在使用Java的HttpClient发送请求时,如果遇到中文乱码问题,通常需要确保请求和响应的字符集都正确设置为UTF-8。以下是一些解决方法:指定请求数据的字符集为UTF-8格式:在使用UrlEncodedFormEntity或StringEntity时,确保传递正确的字符集参数。例如:StringEntityentity=newUrlEnco......
  • AI 绘图 Stable Diffusion 真人漫改全流程跑通,看过来,照做就行了。
    今天给大家讲解SD如何实现真人漫改。文章使用的AI工具SD整合包、各种模型插件、提示词、AI人工智能学习资料都已经打包好放在网盘中了,无需自行查找,有需要的小伙伴文末扫码自行获取。先上效果图:原图:Stablediffusion涉及的内容很多,对于初学者来说入门是有点困难,但是我......
  • netcore webapi部署到docker容器,api调用后显示中文乱码
    vs2022webapi部署到docker容器,api调用后显示中文乱码。原因是:源代码文件不是utf-8编码(用vscode打开是乱码,在vscode修改后,再提交,正常)解决方法一:在中文环境下用过微软家Visualstudio的都知道,新建文件的保存编码都默认为当前系统语言,所以你的文件编码永远都是GB2312,非常令人......
  • AI绘画最强SD(Stable Diffusion)玩法实操教学案例及商业变现项目分享
    AI绘画现在越来越火爆了,很多人无论大人小孩都在玩,还有的很多电商老板也在使用辅助生成产品主图和详情页,可以说是非常的实用。而其中最让人追捧和好评的就是SD(StableDiffusion)这款AI绘图软件了,StableDiffusion是一款基于深度学习的图像生成工具,它可以根据文本描述生成高质......
  • 我用AI绘画Stable Diffusion设计建筑户型图,速度又快画的又好!AI打工不惧内卷了!
    大家好,我是程序员晓晓户型图设计是地产公司的常规工作,逐个房间填色摆放家具,忙忙碌碌一天才能完成一个户型,现在用我总结的AI设计工作流程,只要5分钟!现在普通人也能从事户型图设计工作。今天我们通过一个具体的工程案例,一起使用AI绘图工具快速精通户型图设计工作流程。我们先......