Unet的输入是\((x_noise, t)\),其中\(x_noise\)是在时间步 \(t\) 时已经添加了噪声的图片,Unet的输出是在时间步\(t\)添加的噪声。该噪声是公式\(q(x_t|x_{t-1}) = \sqrt{\overline{\alpha_t}}x_0 + \sqrt{1-\overline{\alpha_t}} \epsilon\)中的\(\epsilon\),这并非是真实加入的噪声,但根据推导公式,求得随机采样的\(\epsilon\) 就可以推出\(x_t\)。在Unet网络中,通过确定\(t\)个\(\beta\)的值,再通过采样一个\(\epsilon\),就可以根据公式\(q(x_t|x_{t-1}) = \sqrt{\overline{\alpha_t}}x_0 + \sqrt{1-\overline{\alpha_t}} \epsilon\)得到\(x_{noise}\), 这个\(\epsilon\)是已知的,通过\(\epsilon_{\theta}=Unet(x_noise, t)\)得到估计的采样值,最终\(loss = MSE(\epsilon, \epsilon_{\theta})\)建模出\(\epsilon\)。
标签:noise,epsilon,模型,sqrt,overline,Unet,alpha,扩散 From: https://www.cnblogs.com/Jerez-Li/p/18183229