首页 > 其他分享 >四、扩散模型(Diffusion Model)的测试过程

四、扩散模型(Diffusion Model)的测试过程

时间:2024-10-19 11:32:50浏览次数:1  
标签:Diffusion right mathbf sqrt theta alpha Model 扩散 left

测试过程也叫采样过程,是从噪音\(\mathbf{x}_T\)中慢慢去噪,最终生成图片的过程

目录

1. 扩散模型的测试过程

在论文中,扩散模型的测试过程如下

image-20241017173024698

测试过程第1步

生成噪音\(\mathbf{x}_T\)

测试过程第3步

生成噪音\(\mathbf{z}\)。特别的,当\(t=1\)时,\(\mathbf{z} = 0\)

测试过程第4步

  • 目的:根据\(\mathbf{x}_t\),生成去噪后的图片\(\mathbf{x}_{t-1}\)

  • 公式讲解:

    • \(\boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\):\(\boldsymbol{\epsilon}_\theta\)是预测噪音的模型,它有两个输入,分别是图片\(\mathbf{x}_t\)和时刻\(t\)

    • \(\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)\):

      在第二篇文章中,我们知道,在前向过程中,在已知 \(\mathbf{x}_{t-1}\) 的条件下, \(\mathbf{x}_t\) 的概率密度函数 \(q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)\);在已知 \(\mathbf{x}_0\) 的条件下, \(\mathbf{x}_t\) 的概率密度函数 \(q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{\bar{\alpha}_t} \mathbf{x}_0,\left(1-\bar{\alpha}_t\right) \mathbf{I}\right)\)。

      根据贝叶斯公式,我们可以得到,在已知 \(\mathbf{x}_{t}\) 的条件下, \(\mathbf{x}_{t-1}\) 的概率密度函数\(q(\mathbf{x_{t-1}|\mathbf{x}_t})\)。推导之后,我们可以发现,\(q(\mathbf{x_{t-1}|\mathbf{x}_t})\)也服从正态分布,其方差为常数,均值为$ \frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}\right)\(,其中\)\boldsymbol{\epsilon}\(为从\)\mathbf{x}_0\(到\)\mathbf{x}_t$添加的噪音之和。

      我们设:在反向过程中,在已知 \(\mathbf{x}_{t}\) 的条件下, \(\mathbf{x}_{t-1}\) 的概率密度函数\(p_\theta(\mathbf{x_{t-1}|\mathbf{x}_t})\)。

      我们想要让反向过程和正向过程尽可能保持一致,因此可以让\(p_\theta(\mathbf{x_{t-1}|\mathbf{x}_t})\)尽可能的接近\(q(\mathbf{x_{t-1}|\mathbf{x}_t})\)。也就是说,我们可以让\(p_\theta(\mathbf{x_{t-1}|\mathbf{x}_t})\)也是正态分布,其方差为常数,均值为\(\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)\),其中\(\boldsymbol{\epsilon}_\theta\left(\mathrm{x}_t, t\right)\)是对$$\boldsymbol{\epsilon}$$的预测值

      在正态分布\(N(x;\mu,\sigma^2)\)中,当\(x = \mu\)时,概率密度函数取得最大值。

      因此,\(\mathbf{x}_{t-1} =\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)\)时,\(p_\theta(\mathbf{x_{t-1}|\mathbf{x}_t})\)取得最大值。也就是说,在已知\(\mathbf{x}_t\)的情况下,\(\mathbf{x}_{t-1}\)最有可能取到\(\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)\)这个值。

      更为详细的推导过程见上一篇文章

    • \(\mathbf{x}_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)+\sigma_t \mathbf{z}\)

      但是在最终,我们在\(\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)\)后面又加上了噪声\(\sigma_t \mathbf{z}\)(其中,\(\sigma_t^2\)为\(p_\theta(\mathbf{x_{t-1}|\mathbf{x}_t})\)的方差)作为\(\mathbf{x}_{t-1}\)的推测值。

      为什么这么干呢?因为在真实世界中,会有很多随机扰动,加入噪音的目的就是为了模拟这些扰动,以防止模型过拟合。

      经过实验,如果我们令\(\sigma_t = 0\),那么扩散模型是无法生成图片的。

标签:Diffusion,right,mathbf,sqrt,theta,alpha,Model,扩散,left
From: https://www.cnblogs.com/rh-li/p/18475695

相关文章

  • 三、为什么扩散模型使用均方误差损失(选看)
    高能预警:这篇文章难度很大,包含很多的数学推导,如果不想接触太多的数学内容,那么可以跳过不看。看这篇文章之前,你需要了解:什么是马尔科夫链,什么是极大似然估计,什么是KL散度,两个正态分布的KL散度,什么是贝叶斯公式以下内容参考了主要参考了博客WhatareDiffusionModels?以及李......
  • 【AI绘画】Stable Diffusion实战ControlNET插件(让小姐姐摆出你要的pose!)
    大家好我是安琪!SD插件ControlNET的诞生,无法自定义姿势成为过去,自定义姿势;根据线稿、骨骼、其他图片生成全新的图,AI绘图自主可控;包括边缘检测,深度信息估算;姿态,手势检测;分割等等场景:个人pose图,模特换装;装修出图;设计草图快速复原;颜色快速更换等等此扩展用于AUTOMATIC1111的......
  • Denoising Diffusion Implicit Models(去噪隐式模型)
    DDPM有一个很麻烦的问题,就是需要迭代很多步,十分耗时。有人提出了一些方法,比如one-stepdm等等。较著名、也比较早的是DDIM。原文:https://arxiv.org/pdf/2010.02502参考博文:https://zhuanlan.zhihu.com/p/666552214?utm_id=0 DDIM假设 DM假设ddim给出了一个新的扩散假设,结......
  • DiffSinger: 基于浅层扩散机制的歌声合成新技术
    DiffSingerDiffSinger:开创歌声合成新纪元在人工智能和深度学习技术飞速发展的今天,计算机生成的歌声越来越接近真人歌唱。而在众多歌声合成技术中,DiffSinger无疑是一颗冉冉升起的新星。这项由刘景林等人在2021年提出的技术,正在为歌声合成领域带来革命性的变革。DiffSinger的......
  • OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction
    1.数据准备在这个数据处理过程中,以数据集PEMS07M为例,整个数据抽取和划分过程如下:初始数据维度:原始训练数据data_train的维度为(12672,228,3)。其中:12672表示时间步数,代表不同的时间点采样的数据。228表示空间节点数(例如不同的交通站点)。3表示每个节点在每个......
  • 还有小白不会用stable diffusion?史上最全的stable diffusion环境配置指南
    前言StableDiffusion的横空出世,带动了AI生成图片的又一波高潮。随后在StableDiffusion的模型基础上,各种风格、生成内容的再训练模型层出不穷,极大的丰富了AI生成图片的多样性和精细程度;Lora、ControlNet等插件的出现,更加简化了模型的训练难度以及优化了图片生成的预期效果......
  • Survey on Reasoning Capabilities and Accessibility of Large Language Models Usin
    本文是LLM系列文章,针对《SurveyonReasoningCapabilitiesandAccessibilityofLargeLanguageModelsUsingBiology-relatedQuestions》的翻译。使用生物学相关问题对大型语言模型的推理能力和可访问性的调查摘要1引言2相关工作3方法4结果5讨论结论......
  • OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundati
    本文是LLM系列文章,针对《OmniGenBench:AutomatingLarge-scalein-silicoBenchmarkingforGenomicFoundationModels》的翻译。OmniGenBench:基因组基础模型的大规模计算机基准测试自动化摘要1引言2OmniGenBench3基准结果4相关工作5结论摘要近年来人......
  • 文生图:Stable Diffusion、Midjourny
    StableDiffusion(SD)和Midjourney(MJ)是当前流行的两款AI图像生成工具,它们各有特点和优势:**-StableDiffusion是完全开源的,**这意味着用户可以免费使用,并且有技术能力的用户可以自行修改和优化模型。很多国内的公司,都是基于这个模型,本地部署,自己只开发前端应用。StableDiff......
  • 【奶奶看了都会了】AI绘画 Mac安装stable-diffusion-webui绘制AI妹子保姆级教程
    1.作品图2.准备工作目前网上能搜到的stable-diffusion-webui的安装教程都是Window和MacM1芯片的,而对于因特尔芯片的文章少之又少,这就导致我们还在用老Intel芯片的Mac本,看着别人生成美女图片只能眼馋。所以这周末折腾了一天,总算是让老Mac本发挥作用了。先来说说准备工作:......