人像生成模型

1.模型理论基础

扩散模型（Diffusion Model）：

1.1 Diffusion Model 原理

首先，Denoise Model 需要一个起始的噪声图像作为输入。这个噪声图像可以是完全随机的，也可以是一些特定的模式（如 高斯分布）或者形状。 - 接下来，随着 denoise 的不断进行，图像的细节信息会逐渐浮现出来。这个过程有点像冲洗照片，每次冲洗都会逐渐浮现出照片中的细节和色彩。denoise 的次数越多，生成的图像就越清晰、越细腻。 - 最后，Denoise Model 会根据用户的需求输出最终的图像。

Denoise 过程中，用的都是同一个 Denoise Model。为了让 Diffusion Model 知道当前是在哪个 Step 输入的图片，实际操作过程中会把 Step 数字作为输入传递给模型。这样，模型就能够根据当前的 Step 来判断图像的噪声程度，从而进行更加精细的去噪操作。

1.2 Denoise Model 的内部

实际上，Denoise Model 内部做了一些非常有趣的事情来生成高质量的图像。首先，由于让模型直接预测出去噪后的图片是比较困难的事情，所以 Denoise Model 做了两件事情： - 首先，它会把噪音图片和当前的 Step 一起输入到一个叫做 Noise Predicter 的模块中，这个模块会预测出当前图片的噪音。 - 接下来，模型会对初步的去噪图片进行修正，以达到去噪效果。具体来说，模型会通过像素值减去噪音的方式来进一步去除噪音。

1.3 如何训练 Noise Predictor？

要训练 Noise Predictor，我们需要有 Ground truth 的噪音作为 label 进行有监督的学习。那么，各个 Step 的 Ground truth 从哪里来呢？

我们可以通过随机产生噪音的方式来模拟扩散过程（Diffusion Process）。具体来说，我们从原始图像开始，不断地加入随机噪音，得到一系列加噪后的图像。这些加噪后的图像和当前的 Step 就是 Denoise Model 的输入，而加入的噪音则是 Ground truth。我们可以用这些 Ground truth 数据来训练 Noise Predictor，以便它能够更好地预测出当前图像的噪音。

1.4 Text-to-Image

有些同学问了：我见到的 Diffusion Model是Text-to-image Generator，基于文本生成图片。为什么你这个没有文本的输入呢？

确实，有些 Diffusion Model 是基于文本生成图片的，这意味着我们可以将文本作为输入来生成图片。

每一个 step，文本都可以作为 Denoise Model 的输入，这样可以让模型知道当前应该生成什么样的图片。

具体来说，我们可以将文本输入到 Noise Predictor 中，以便预测出噪音来去噪。

标签：Diffusion,模型,Denoise,图像,噪音,Stable,扩散,Model
From： https://www.cnblogs.com/tany-g/p/17736283.html

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇
在上一期的文章中，探讨了在 AmazonSageMakerStudio上使用QLoRA等量化技术微调Falcon40B大语言模型。而从本期开始，我们将一起尝试在更深的知识维度，继续探究生成式AI这一火热的新知识领域。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开......
Stable Diffusion 的工作原理
StableDiffusion是一种深度学习技术，主要用于生成式对抗网络（GANs）的训练。这一技术旨在提高生成图像和视频的质量和稳定性。StableDiffusion引入了一种称为"masking"的功能，用于改进训练的效果。在本文中，我将详细介绍StableDiffusion中masking的具体含义，并通过示例来说明......
stable-diffusion-webui Github 代码仓库的介绍
stable-diffusion-webui：一个基于Web的稳定梯度流生成模型训练工具stable-diffusion-webui是一个位于GitHub上的开源代码仓库，地址为https://github.com/AUTOMATIC1111/stable-diffusion-webui。该仓库提供了一个基于Web的用户界面，旨在简化使用StableDiffusion这一生成模......
Stable Diffusion 的工作原理介绍
StableDiffusion:一个强大的生成模型训练工具StableDiffusion是一个强大的生成模型训练工具，它在机器学习领域引起了广泛的关注和研究。该工具的核心思想是通过稳定的梯度流来训练生成模型，从而提高生成图像和数据的质量。本文将详细介绍StableDiffusion的背景、原理、应用......
Stable Diffusion基础：精准控制之ControlNet
在AI绘画中精确控制图片的生成是一件比较困难的事情，炼丹师们经常需要大量抽卡才能得到一张满意的图片，不过随着ControlNet的诞生，这一问题得到了很大的缓解。ControlNet提供了十几种控制网络模型，有的可以控制画面的结构，有的可以控制人物的姿势，还有的可以控制图片的画风，这对于提......
Stable Diffusion基础：ControlNet之重新上色（黑白照片换新颜）
本文给大家分享StableDiffusion的基础能力：ControlNet之重新上色。这是一个最近新上的ControlNet模型，它可以识别图像中的不同区域，并使用不同的颜色重新绘制它们。安装ControlNet安装工欲善其事必先利其器，ControlNet还是先要安装好的，已经安装好的请跳过这一步。......
[IJCAI 2023]Fighting against Organized Fraudsters Using Risk Diffusion-based Par
[IJCAI2023]FightingagainstOrganizedFraudstersUsingRiskDiffusion-basedParallelGraphNeuralNetwork文章设计了一种基于社区的医疗保险欺诈行为检测。模型为了提高精度，模型设计了一组异构图模型和一组同构图模型。输入的异构图是保险受益人-医疗服务提供者的图，......
Stability AI发布基于稳定扩散的音频生成模型Stable Audio
近日StabilityAI推出了一款名为StableAudio的尖端生成模型，该模型可以根据用户提供的文本提示来创建音乐。在NVIDIAA100GPU上StableAudio可以在一秒钟内以44.1kHz的采样率产生95秒的立体声音频，与原始录音相比，该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。......
[论文速览] SDXL@ Improving Latent Diffusion Models for High-Resolution Image Syn
Pretitle:SDXL:ImprovingLatentDiffusionModelsforHigh-ResolutionImageSynthesisaccepted:arXiv2023paper:https://arxiv.org/abs/2307.01952code:https://github.com/Stability-AI/generative-models关键词：imagesynthesis,stablediffusion,SDXL,AICG......
AI绘画：StableDiffusion实操教程-斗罗大陆-朱竹清（附高清图下载）
大家好，我是小梦，最近一直研究AI绘画。不久前，我与大家分享了StableDiffusion的全面教程：“AI绘画：StableDiffusion终极宝典：从入门到精通”然而，仍有些读者提出，虽然他们已经成功地安装了此工具，但生成的作品与我展示的相差较大。那么，如何缩小这之间的质感差距呢？关键在于选择合适的......

Stable Diffusion扩散模型