首页 > 其他分享 >Stable Diffusion 3.5 正式发布!免费开源,堪称最强AI文生图模型,附本地安装和在线使用教程

Stable Diffusion 3.5 正式发布!免费开源,堪称最强AI文生图模型,附本地安装和在线使用教程

时间:2024-10-27 09:49:16浏览次数:3  
标签:Diffusion 文生 模型 Large AI 3.5 Stable fp8

关键要点:

  • 10月22日,stability.ai重磅推出 Stable Diffusion 3.5,号称迄今为止最强大的文生图模型。此次公开版本包括多个模型变体,其中有 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium 将于 10 月 29 日发布。
  • 这些模型在尺寸方面具有高度可定制性,可在消费级硬件上运行,并且在宽松的 Stability AI 社区许可证下可免费用于商业和非商业用途。
  • 可以从Hugging Face下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,从GitHub下载推理代码。

引言

Stable Diffusion 3.5,这是迄今为止最强大的模型。此次公开版本包括多个可定制的变体,可在消费级硬件上运行,并在宽松的 Stability AI 社区许可证下供使用。可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型,从 GitHub 下载推理代码。

在今年6 月,stability.ai发布了 Stable Diffusion 3 Medium,这是 Stable Diffusion 3 系列的首个公开版本。这个版本并未完全达到stability.ai的标准和社区的期望。在听取了宝贵的社区反馈后,stability.ai没有进行快速修复,而是花时间进一步开发了一个版本,以推进改变视觉媒体的使命。

发布内容

Stable Diffusion 3.5 提供了多种模型,以满足科研人员、爱好者、初创企业和企业的需求:

Stable Diffusion 3.5 Large:拥有 80 亿参数,具有卓越的质量和对提示的高度依从性,这个基础模型是 Stable Diffusion 家族中最强大的。该模型适用于 1 百万像素分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large 的精简版本,仅需 4 步即可生成高质量图像且对提示有出色的依从性,比 Stable Diffusion 3.5 Large 快得多。

Stable Diffusion 3.5 Medium(将于 10 月 29 日发布):拥有 25 亿参数,采用改进的 MMDiT-X 架构和训练方法,该模型设计为可在消费级硬件上 “开箱即用”,在质量和易定制性之间取得平衡。它能够生成 0.25 至 2 百万像素分辨率的图像。此后不久,ControlNets 也将推出,为各种专业用例提供高级控制功能。

模型原理

从技术层面来看,稳定扩散 3.5 (SD3.5) 将文本提示作为输入,使用基于变换器的文本编码器将其编码到潜在空间中,然后使用基于扩散的解码器将该潜在表示解码为输出图像。变换器文本编码器(例如 CLIP(对比语言-图像预训练)模型)将输入提示映射到潜在空间中具有语义意义的压缩表示中。然后,扩散解码器在多个时间步内迭代去噪此潜在代码以生成最终图像输出。扩散过程涉及根据文本嵌入逐渐从最初嘈杂的潜在表示中去除噪声,直到出现清晰的图像。

Stable Diffusion 3.5 (SD3.5)(大型、中型)中的不同模型大小指的是可训练参数的数量 - 大型模型为 80 亿,中型模型为 25 亿。更多参数通常允许模型从其训练数据中捕获更多知识和细微差别。Turbo 模型是精炼版本,它牺牲了一些质量来获得更快的推理速度。精炼涉及训练较小的“学生”模型来模仿较大的“老师”模型的输出,旨在以更高效的架构保留大部分功能。

模型优势

Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上最具可定制性和易用性的图像模型之一,同时在对提示的依从性和图像质量方面保持顶级性能:

  • 可定制性:轻松微调模型以满足你的特定创意需求,或基于定制工作流程构建应用程序。
  • 高效性能:经过优化可在标准消费级硬件上运行,无需高要求,特别是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 模型。
  • 多样输出:生成代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需大量提示。

  • 多样风格:能够生成广泛的风格和美学效果,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。

此外,分析表明,Stable Diffusion 3.5 Large 在提示依从性方面领先市场,并在图像质量上可与更大的模型相媲美。

Stable Diffusion 3.5 Large Turbo 在其尺寸范围内提供了一些最快的推理时间,同时在图像质量和提示依从性方面仍然具有高度竞争力,即使与类似大小的非精简模型相比也是如此。

Stable Diffusion 3.5 Medium 优于其他中型模型,在提示依从性和图像质量之间取得平衡,使其成为高效、高质量性能的首选。

ComfyUI 本地部署

官方目前已经在 Huggingface 上开源了 SD 3.5 Large 和 Large Turbo 两款模型,ComfyUI 第一时间就进行了支持。另外 ComfyUI 官方自己还发布了一款 sd3.5_large_fp8_scaled 模型,适合低显存(8G)用户。下面分别介绍三款模型的基础使用。

① SD 3.5 Large/TurBo

  1. 下载 Stable Diffusion 3.5 模型文件,并放置于models/checkpoint

Stable Diffusion 3.5 Large下载链接:https://huggingface.co/stabilityai/stable-diffusion-3.5-large

Stable Diffusion 3.5 Large Turbo下载链接:https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

  1. 下载对应的clip模型,并放置于models/clip

clip_g.safetensors下载链接:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors

clip_l.safetensors下载链接:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors

t5xxl_fp16.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp16.safetensors

3、使用说明

将 ComfyUI 更新到最新版

Large 模型适合显存 16G 及以上的用户。图像分辨率需要是 64 的倍数;CFG 参数推荐 4.5-5.5;采样器 DPM++2M;生成步数 30-40

Turbo模型采样器步数改为 4,cfg 改为 1.2 -1.6,其余用法和 Large 一样

Stable Diffusion 3.5 FP8

1、下载 Stable Diffusion 3.5 FP8模型文件,并放置于models/checkpoint

sd3.5_large_fp8_scaled:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/sd3.5_large_fp8_scaled.safetensors?ref=blog.comfy.org

2、下载对应的clip模型,并放置于models/clip

clip_g.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors

clip_l.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors

t5xxl_fp8_e4m3fn.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp8_e4m3fn.safetensors

(experimental)t5xxl_fp8_e4m3fn_scaled.safetensors:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors

3、使用说明

FP8版本是低显存解决方案

生成步数 20,采样器 DPM++2M。

在线运行 Stable Diffusion 3.5

可以通过 Hugging Face 的 Space 在线运行 Stable Diffusion 3.5:

除了可以从 Hugging Face 下载模型权重进行自托管外,用户还可以通过以下平台访问 Stable Diffusion 3.5:

关注公众号"AIGC前沿洞察",文末回复“SD3.5”可获取对应工作流

标签:Diffusion,文生,模型,Large,AI,3.5,Stable,fp8
From: https://blog.csdn.net/Vampire_2017/article/details/143257006

相关文章

  • 基于企业微信与开源 AI 智能名片 2 + 1 链动模式 S2B2C 商城小程序的客户运营模型优化
    摘要:本文聚焦于企业微信在客户运营中的重要作用,并深入探讨如何将开源AI智能名片、2+1链动模式以及S2B2C商城小程序融入其中,构建更完善的客户运营模型。分析了企业微信在客户关系管理方面的优势,阐述了新元素在触达引流、沟通转化和用户服务这三大客户运营功能中的应用价......
  • 地理征服营销与开源 AI 智能名片 2 + 1 链动模式 S2B2C 商城小程序的融合创新
    摘要:本文探讨了地理征服营销这一创新营销策略与开源AI智能名片2+1链动模式S2B2C商城小程序的融合应用。首先阐述地理征服营销的概念和实施要点,接着介绍开源AI智能名片2+1链动模式S2B2C商城小程序的功能与优势,分析二者结合如何为企业在竞争激烈的市场中吸引客户......
  • 独立开发者如何利用AI实现高收入
    引言在探索独立开发领域时,AI技术的出现为开发者打开了新世界的大门。本文将分享如何利用AI技术提高开发效率,实现更高的收入。AI在编程中的应用AI技术的快速发展为独立开发者带来了前所未有的机遇。通过使用AI,我们可以:加速编程过程利用AI模型,如ChatGPT,我们可以快速生......
  • 点跟踪论文—RAFT: Recurrent All-Pairs Field Transforms for Optical Flow-递归的全
    点目标跟踪论文—RAFT:RecurrentAll-PairsFieldTransformsforOpticalFlow-递归的全对场光流变换读论文RAFT密集光流跟踪的笔记RAFT是一种新的光流深度网络结构,由于需要基于点去做目标的跟踪,因此也是阅读了像素级别跟踪的一篇ECCV2020的经典论文——RAFT,递归的......
  • 高级RAG技术:提升生成式AI系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化
    高级RAG技术:提升生成式AI系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】检索增强生成(RAG)是一种强大的技术,它将信息检索与生成式AI相结合,以产生更准确、上下文更丰富的响应。本文将探讨15种高级RAG技术,以提高生成式AI系统的输出质量和整体性能的......
  • jetbrains提示当前文件夹被windows defender防护解决办法
    jetbrains提示当前文件夹被windowsdefender防护解决办法在JetBrainsIDE(如CLion、IntelliJIDEA、PyCharm)中看到“当前文件夹被WindowsDefender防护,导致性能下降”的提示,通常是因为WindowsDefender实时监控正在扫描项目文件,尤其是涉及大量文件的项目或频繁的读写操作......
  • 深度学习Python停车场智能车牌识别系统opencv流量费用时间AI源码
    随着智能交通技术的发展,停车场智能车牌识别系统逐渐成为现代停车管理的重要工具。该系统利用深度学习和计算机视觉技术,实现对车辆车牌的自动检测与识别,从而提高停车场的管理效率和用户体验。系统架构与功能模块车牌检测:系统首先利用目标检测算法(如YOLO或FasterR-CNN)对停车......
  • 订购 Claude AI 的第二天 它独自完成 文字换语音 flask应用
    图二里,删除几个无关的 chats全程我做的工作:向AI提要求,copy/paste代码,在venv验证运行,向 AI反馈,总共用了3个chats.(图中的只有一个Chat,删掉的另外两个:Python库安装排错用的,docker部署时遇到各自问题chat)曾经废弃的项目:text2speech目录结构your_project/├......
  • Windows 资源管理器显示PSD、PDF、AI 等矢量格式缩略图
    1、SageThumbsSageThumbs是一个强大的shell扩展,允许使用Pierre-eGougelet的GFL3.40库(XnViewClassic、XnViewMP 的作者)直接在Windows资源管理器中预览大量图像格式。AI、PS、EPS、PDF支持#要为AdobeIllustrator(ai)、Postscript(ps,eps)和AdobeAcrobat(pdf)文......
  • 2024-10-26:最长公共后缀查询。用go语言,给定两个字符串数组 wordsContainer 和 wordsQu
    2024-10-26:最长公共后缀查询。用go语言,给定两个字符串数组wordsContainer和wordsQuery,要对每个wordsQuery[i]找到一个与其有最长公共后缀的字符串。如果有多个字符串与wordsQuery[i]有相同的最长公共后缀,则返回在wordsContainer中最早出现的那个。最后,返回一个整数数组a......