首页 > 其他分享 >StableDiffusion笔记

StableDiffusion笔记

时间:2023-11-26 15:47:36浏览次数:93  
标签:diffusion GitHub -- 笔记 Stability Unet StableDiffusion 文本

title: StableDiffusion笔记
banner_img: https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679396994125.png
date: 2023-5-29 15:36:00
categories:
- 笔记
tags:
- 文字生成图片

Stable Diffusion 是一个图像生成方法,由 Stability AI and Runway 在LDM[1] 的基础上提出。在GitHub有很多他的实现和应用[2][3][4] ,其中[2:1] 是最早的实现版本,[3:1] 是V2版本,由 Stability AI 完成。

整体结构

flowchart TD subgraph Input-noisy Random-seed --> latent-Gaussian-noise end subgraph Input-prompt prompt --> TextEncoder --> TextEmbaddings end latent-Gaussian-noise -->Unet{Unet-with-MultiAttention} TextEmbaddings-->Unet Unet --> predict-noisy --sampling-steps-->Unet predict-noisy --> Decoder --> Image

在一开始,StableDiffusion会通过一个随机数种子生成一张在隐空间下的随机噪声,同时通过一个文本编码器对输入的prompt进行编码,生成一个文本向量。随机噪声和文本向量会一块送入Unet,经过DDPM的步骤得到一张隐空间下的图片,通过一个解码器得到完整的图片。这里的Unet做出了改进,中间加入了交叉注意力机制。

Unet-with-MultiAttention

Unet-with-MultiAttention 图源medium.com
图中Switch用于在不同的输入之间调整。

  • 文本数据通过一个文本编码器(一般是CLIP的文本编码器)将文本转换为向量,投影到Unet上
  • 图像,语义图,表示等直接送入Unet

反向扩散过程中输入的文本向量和隐空间下的噪声图片需要经过 \(t\)轮的Unet网络,每一轮预测一个噪声,噪声图减去这个噪声,得到的图片继续送入Unet进行下一轮

参考文献


  1. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA. https://doi.org/10.1109/cvpr52688.2022.01042 ↩︎

  2. CompVis. (n.d.). GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model. GitHub. Retrieved May 29, 2023, from https://github.com/CompVis/stable-diffusion ↩︎ ↩︎

  3. Stability-AI. (n.d.). GitHub - Stability-AI/stablediffusion: High-Resolution image synthesis with latent diffusion models. GitHub. Retrieved May 29, 2023, from https://github.com/Stability-AI/stablediffusion ↩︎ ↩︎

  4. AUTOMATIC1111. (n.d.). GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI. GitHub. Retrieved May 29, 2023, from https://github.com/automatic1111/stable-diffusion-webui ↩︎

标签:diffusion,GitHub,--,笔记,Stability,Unet,StableDiffusion,文本
From: https://www.cnblogs.com/studyinglover/p/17857338.html

相关文章

  • RoboTAP笔记
    title:RoboTAP笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679396994125.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/15ff4915dff842e47e91d580d0d0fe5c.pngdate:2023-9-112:35:00categories:-笔记tags:-......
  • Paper Gestalt笔记
    title:PaperGestalt笔记banner_img:https://cdn.studyinglover.com/pic/2023/07/5deff473fdf93539d3952d3d6894add3.pngdate:2023-7-2710:57:00PaperGestalt笔记最近读到了一篇CVPR2010非常优秀的论文,叫做PaperGestalt,他考虑到近年来(2010年的近年来)CVPR的投稿两......
  • LoRA笔记
    title:LoRA笔记banner_img:https://proxy.thisis.plus/202305091237913.pngdate:2023-6-130:12:40tags:-文字生成图片LoRA笔记自然语言处理的一个重要范式包括对一般领域数据的大规模预训练和对特定任务或领域的适应。当我们预训练更大的模型时,重新训练所有模型参数......
  • Imagic笔记
    title:Imagic笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679397008541.pngdate:2023-3-2919:42:00categories:-笔记tags:-文字生成图片Imagic笔记先前的工作大多数方法目前仅限于以下一种:特定的编辑类型(例如,对象叠......
  • LISA(推理分割)笔记
    title:LISA(推理分割)笔记banner_img:https://cdn.studyinglover.com/pic/2023/08/10f885319b150cc20093124185e25c3b.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/ded90e7e3f84739b187dd679c39bd8dd.pngdate:2023-8-1815:05:00categories:-笔记tags:-......
  • 进程间通信--学习笔记
    #进程间通信--pipe、FIFO、共享内存、消息队列、信号量pipe(无名管道)​ 只能实现有亲缘关系进程之间的通信,它是单向的,intpipe(intpiped[2])//创建管道fd[0]:读文件,fd[1]:写文件。之后可以用open()、write()函数进行对管道进行操作,创建管道要在fork()之前以保证......
  • 《信息安全系统设计与实现》第十二周学习笔记
    TCP/IP协议TCP/IP协议是一组通信协议,用于在计算机网络上实现数据传输。它是因特网的基础协议,也被广泛用于局域网(LAN)和广域网(WAN)。TCP/IP协议族由两个主要协议组成:传输控制协议(TCP)和互联网协议(IP)。这两个协议共同工作,以确保在网络上可靠、有序地传输数据。IP主机和IP地址:IP地......
  • 学习笔记11
    第十四章MYSQL实践mysql简介MySQL是一个开源数据库管理系统,由服务器和客户机组成。在将客户机连接到服务器后,用户可向服务器输入SQL命令,以便创建数据库,删除数据库,存储、组织和检索数据库中的数据。MySQL有广泛的应用。mysql安装在ubuntu中使用sudoaptinstallmysql-server......
  • I3D笔记
    title:I3D笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679397045791.jpgdate:2023-4-2322:14:00I3D笔记I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集Ki......
  • DSDN笔记
    title:Dual-StreamDiffusionNetforText-to-VideoGeneration笔记banner_img:https://cdn.studyinglover.com/pic/2023/08/b6f940f512488c10b7a1bf40eb242cae.pngindex_img:https://cdn.studyinglover.com/pic/2023/08/3021b6624ee4f2093c6166b6a80cd643.pngdate:2023......