关键要点:
- 10月22日,stability.ai重磅推出 Stable Diffusion 3.5,号称迄今为止最强大的文生图模型。此次公开版本包括多个模型变体,其中有 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium 将于 10 月 29 日发布。
- 这些模型在尺寸方面具有高度可定制性,可在消费级硬件上运行,并且在宽松的 Stability AI 社区许可证下可免费用于商业和非商业用途。
- 可以从Hugging Face下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,从GitHub下载推理代码。
引言
Stable Diffusion 3.5,这是迄今为止最强大的模型。此次公开版本包括多个可定制的变体,可在消费级硬件上运行,并在宽松的 Stability AI 社区许可证下供使用。可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型,从 GitHub 下载推理代码。
在今年6 月,stability.ai发布了 Stable Diffusion 3 Medium,这是 Stable Diffusion 3 系列的首个公开版本。这个版本并未完全达到stability.ai的标准和社区的期望。在听取了宝贵的社区反馈后,stability.ai没有进行快速修复,而是花时间进一步开发了一个版本,以推进改变视觉媒体的使命。
发布内容
Stable Diffusion 3.5 提供了多种模型,以满足科研人员、爱好者、初创企业和企业的需求:
Stable Diffusion 3.5 Large:拥有 80 亿参数,具有卓越的质量和对提示的高度依从性,这个基础模型是 Stable Diffusion 家族中最强大的。该模型适用于 1 百万像素分辨率的专业用例。
Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large 的精简版本,仅需 4 步即可生成高质量图像且对提示有出色的依从性,比 Stable Diffusion 3.5 Large 快得多。
Stable Diffusion 3.5 Medium(将于 10 月 29 日发布):拥有 25 亿参数,采用改进的 MMDiT-X 架构和训练方法,该模型设计为可在消费级硬件上 “开箱即用”,在质量和易定制性之间取得平衡。它能够生成 0.25 至 2 百万像素分辨率的图像。此后不久,ControlNets 也将推出,为各种专业用例提供高级控制功能。
模型原理
从技术层面来看,稳定扩散 3.5 (SD3.5) 将文本提示作为输入,使用基于变换器的文本编码器将其编码到潜在空间中,然后使用基于扩散的解码器将该潜在表示解码为输出图像。变换器文本编码器(例如 CLIP(对比语言-图像预训练)模型)将输入提示映射到潜在空间中具有语义意义的压缩表示中。然后,扩散解码器在多个时间步内迭代去噪此潜在代码以生成最终图像输出。扩散过程涉及根据文本嵌入逐渐从最初嘈杂的潜在表示中去除噪声,直到出现清晰的图像。
Stable Diffusion 3.5 (SD3.5)(大型、中型)中的不同模型大小指的是可训练参数的数量 - 大型模型为 80 亿,中型模型为 25 亿。更多参数通常允许模型从其训练数据中捕获更多知识和细微差别。Turbo 模型是精炼版本,它牺牲了一些质量来获得更快的推理速度。精炼涉及训练较小的“学生”模型来模仿较大的“老师”模型的输出,旨在以更高效的架构保留大部分功能。
模型优势
Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上最具可定制性和易用性的图像模型之一,同时在对提示的依从性和图像质量方面保持顶级性能:
- 可定制性:轻松微调模型以满足你的特定创意需求,或基于定制工作流程构建应用程序。
- 高效性能:经过优化可在标准消费级硬件上运行,无需高要求,特别是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 模型。
- 多样输出:生成代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需大量提示。
- 多样风格:能够生成广泛的风格和美学效果,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
此外,分析表明,Stable Diffusion 3.5 Large 在提示依从性方面领先市场,并在图像质量上可与更大的模型相媲美。
Stable Diffusion 3.5 Large Turbo 在其尺寸范围内提供了一些最快的推理时间,同时在图像质量和提示依从性方面仍然具有高度竞争力,即使与类似大小的非精简模型相比也是如此。
Stable Diffusion 3.5 Medium 优于其他中型模型,在提示依从性和图像质量之间取得平衡,使其成为高效、高质量性能的首选。
ComfyUI 本地部署
官方目前已经在 Huggingface 上开源了 SD 3.5 Large 和 Large Turbo 两款模型,ComfyUI 第一时间就进行了支持。另外 ComfyUI 官方自己还发布了一款 sd3.5_large_fp8_scaled 模型,适合低显存(8G)用户。下面分别介绍三款模型的基础使用。
① SD 3.5 Large/TurBo
- 下载 Stable Diffusion 3.5 模型文件,并放置于models/checkpoint
Stable Diffusion 3.5 Large下载链接:https://huggingface.co/stabilityai/stable-diffusion-3.5-large
Stable Diffusion 3.5 Large Turbo下载链接:https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
- 下载对应的clip模型,并放置于models/clip
clip_g.safetensors下载链接:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors
clip_l.safetensors下载链接:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors
t5xxl_fp16.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp16.safetensors
3、使用说明
将 ComfyUI 更新到最新版
Large 模型适合显存 16G 及以上的用户。图像分辨率需要是 64 的倍数;CFG 参数推荐 4.5-5.5;采样器 DPM++2M;生成步数 30-40
Turbo模型采样器步数改为 4,cfg 改为 1.2 -1.6,其余用法和 Large 一样
②Stable Diffusion 3.5 FP8
1、下载 Stable Diffusion 3.5 FP8模型文件,并放置于models/checkpoint
sd3.5_large_fp8_scaled:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/sd3.5_large_fp8_scaled.safetensors?ref=blog.comfy.org
2、下载对应的clip模型,并放置于models/clip
clip_g.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors
clip_l.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors
t5xxl_fp8_e4m3fn.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp8_e4m3fn.safetensors
(experimental)t5xxl_fp8_e4m3fn_scaled.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors
3、使用说明
FP8版本是低显存解决方案
生成步数 20,采样器 DPM++2M。
在线运行 Stable Diffusion 3.5
可以通过 Hugging Face 的 Space 在线运行 Stable Diffusion 3.5:
- Stable Diffusion 3.5 Large 在线运行(opens in a new tab)
- Stable Diffusion 3.5 Large Turbo 在线运行(opens in a new tab)
除了可以从 Hugging Face 下载模型权重进行自托管外,用户还可以通过以下平台访问 Stable Diffusion 3.5:
关注公众号"AIGC前沿洞察",文末回复“SD3.5”可获取对应工作流
标签:Diffusion,文生,模型,Large,AI,3.5,Stable,fp8 From: https://blog.csdn.net/Vampire_2017/article/details/143257006