首页 > 其他分享 >[思考] Diffusion Model

[思考] Diffusion Model

时间:2024-08-23 20:27:46浏览次数:9  
标签:Diffusion 模型 生成 Score 思考 图像 Inception Model

时间线

以下是一些重要的里程碑,它们代表了基于Diffusion的图像生成方法的发展:

时间&机构 名称 简述
- VAE Variational AutoEncoder,变分自编码器用于图像生成
2020.12 VQ-VAE Vector Quantized-Variational AutoEncoder,一种用于生成模型的量化技术
2020.12 VQ-GAN Vector Quantized-Generative Adversarial Network,结合了量化和对抗性生成模型
2020.12 UCBerkeley DDPM Denoising Diffusion Probabilistic Models,开创性地使用扩散过程生成图像
2020.12 Stanford DDIM Denoising Diffusion Implicit Models,显著提高了DDPM的生成速度
2021.12 Runway LDM Latent Diffusion Models,将扩散过程应用于潜在空间以生成图像
2021.12 Stability AI StableDiffusion LDMs模型效果比较好的开源图像生成模型
2022.02 OpenAI DALLE 以文本与图像作为token,利用Transformer的自回归机制来生成图像
2022.03 OpenAI GLIDE 基于DiffusionModel,关键创新在于提Classifier-free,将类别c直接作为模型先验输入
2022.04 OpenAI DALLE2 也叫UnClip,通过text embedding扩散为img embedding,将img embedding扩散出image
2022.10 OpenAI DALLE3 推测基于DALLE2,通过仿真加入部分高描述性的图文对
2022.05 Google Imagen 通过LLM抽取text embedding,通过cross attention融入Diffusion Model
2023/03 UC Berkeley && NYU DIT 将latent diffusion中的UNet替换为ViT
OpenAI SOTA参考1SOTA参考2 将latent diffusion中的UNet替换为ViT
Stanford University ControlNet Fintinue

更多文章参考 https://github.com/CroitoruAlin/Diffusion-Models-in-Vision-A-Survey

数据集

在基于Diffusion的图像生成研究中,常用的数据集包括但不限于:

Unconditional Image Generation

数据集名称 机构 数量 官网
CelebA-HQ NVIDIA 3万分辨率1024×1024人脸 超分算法+人工筛选,具体参考文章中AppendixC
FFHQ NVIDIA 7万分辨率1024×1024人脸 具体参考项目
LSUN Princeton University 1M 10个场景20个类别 paper

Conditional Image Generation

数据集名称 机构 数量 官网
LAION-400M LAION 400M paper, project
YFCC100M 2016年Yahoo Labs等 100M图文对,源于雅虎 paper
JFT300M 2017年Google/CMU 300M 18291个类别 paper

评测方法

FID(Fréchet Inception Distance)

衡量的是生成图像与真实图像在特征空间中的分布距离,FID越低,表示生成图像与真实图像的分布越接近。具体测试方法如下:真实样本与生成样本采样相同数据集,使用CNN提取特征点后,用高斯分布来拟合,判断这两个分布之间距离。例如zero shot FID-30K 是从验证集中随机抽取30k个prompts,待评测模型使用这些prompts生成图像再使用CNN抽取特征,计算特征拟合出的高斯分布与验证集所有图像特征的高斯分布之间的距离。

IS(Inception Score)

一种衡量生成模型输出图像质量的指标,特别是在评估图像生成模型时被广泛使用,IS越高,表示生成图像的质量与多样性越好。

IS from kimichat Fromkimichat(提示词:那Inception Score有如何衡量生成图像的质量高低呢?) ## Inception Score 衡量生成图像质量的指标

Inception Score (IS) 是一种衡量生成模型输出图像质量的指标,特别是在评估生成对抗网络(GANs)时被广泛使用。它基于一个简单的观点:如果一个模型能够生成多样且真实的图像,那么这些图像在类别层面上应该是不可区分的,即模型生成的图像应该能够被Inception网络正确分类,并且类别分布应该是多样化的。

Inception Score 的计算步骤

  1. 生成图像集合:首先,从生成模型中生成一批图像。

  2. 分类概率分布:接着,使用一个预训练的Inception网络(或类似的分类网络)对这些生成的图像进行分类,得到每张图像的类别概率分布。

  3. 计算边缘熵:对于每张图像,计算其类别概率分布的边缘熵(即类别熵的期望值)。边缘熵是一个衡量分布多样性的指标,熵越高,表示分布越分散,即类别越多样化。

  4. 计算Inception Score:最后,Inception Score是所有生成图像边缘熵的平均值乘以一个常数(通常是分类网络的类别数)。数学上,如果 ( p(y|x) ) 是模型预测图像 ( x ) 属于类别 ( y ) 的概率,那么Inception Score 可以表示为:

    [ IS = \exp\left(\mathbb{E}_{x}\left[ H(p(y|x)) \right] \right) ]

    其中,( H(p(y|x)) ) 是针对单个图像的熵,计算为 ( -\sum_{y} p(y|x) \log p(y|x) )。

Inception Score 反映的质量指标

  • 多样性:生成图像的类别分布越分散,得分越高。
  • 真实性:生成图像需要能够被正确分类,即类别概率分布的峰值不应太低。

一个高的Inception Score 意味着生成的图像既多样又真实。然而,Inception Score 也有一些局限性,例如它可能不会考虑到图像的感知质量,也不会衡量图像的分辨率或细节。此外,Inception Score 也可能受到模型过拟合的影响,因为过拟合的模型可能会生成高度一致的图像,从而获得较高的分数。

尽管存在这些局限性,Inception Score 仍然是评估生成模型性能的一个有用且广泛使用的指标。

CLIP Score

将condition text与生成的图像送入训练好的CLIP模型中,计算整个测试集得分。

经典方法框架

基于Diffusion的图像生成方法通常遵循以下框架:

  1. 正向扩散: 逐步向数据添加噪声,将其转化为一个简单的分布。
  2. 训练阶段: 使用神经网络学习如何逆转扩散过程,即预测并去除噪声。
  3. 逆向生成: 从简单的分布开始,逐步去除噪声,生成高质量的图像。

核心原理参考:DDPM原理

最新研究方向及SOTA

最新的研究方向包括:

  1. 条件扩散模型: 通过引入条件信息(如文本描述、高描述性Text、草图)来控制图像生成过程。
  2. 扩散空间:图像空间 -> 潜空间
  3. 扩散模型的加速: 通过改进算法和硬件加速,减少生成图像所需的时间。例如 DDIM、DeepCache。
  4. 扩散模型的稳定性: 通过改进模型结构和训练策略,提高生成图像的稳定性和质量。

当前SOTA (State of the Art) 的模型包括:

业务使用场景

基于Diffusion的图像生成技术在多个业务场景中具有广泛的应用:

  1. 艺术创作: 生成独特的艺术作品和图案。
  2. 游戏开发: 生成游戏中的环境、角色和物品。
  3. 广告设计: 生成吸引人的广告图像和海报。
  4. 数据增强: 为机器学习模型提供更多的训练数据。
  5. 虚拟试衣: 根据用户的身材和偏好生成服装的试穿效果。
  6. 个性化推荐: 根据用户的兴趣生成个性化的图像内容。

随着技术的不断发展,基于Diffusion的图像生成方法将在更多领域发挥重要作用,推动人工智能和创意产业的进步。

相关链接

Diffusion Models in Vision: A Survey
相关Paper汇总
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization
Video Diffusion Models: A Survey

标签:Diffusion,模型,生成,Score,思考,图像,Inception,Model
From: https://www.cnblogs.com/fariver/p/18186380

相关文章

  • [Paper Reading] Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusi
    EgocentricWhole-BodyMotionCapturewithFisheyeViTandDiffusion-BasedMotionRefinementlink时间:CVPR2024机构:马普所&SaarlandInformaticsCampus&Google&UniversityofPennsylvaniaTL;DR使用第一人称RGB单目鱼眼相机进行全身动捕的算法,融合了FisheyeVit&3......
  • 2024最新Stable Diffusion安装部署教程五分钟学会(附下载地址)
    附上秋葉aaaki大佬整合包下载地址......
  • 【AI绘画】零基础学会Stable Diffusion!保姆级教程!附全套学习教程,你离成为大佬只差看完
    大家好,我是SD教程菌。最近,我惊奇地发现,还有不少粉丝朋友还没用过AI绘画的顶流工具——StableDiffusion,简称“SD”。今天来出一期SD版零基础的AI绘画课,分为4个部分:SD能有多强?电脑配置要求软件安装基础使用流程1.SD能有多强?其实,2022年8月StableDiffusion就开源发布了,经......
  • 【AI绘画入门】Stable diffusion安装教程,Windows+Mac系统,新手也能学会,看不懂算我输,文
    大家好,我是设计师子衿一、Stablediffusion简介Stablediffusion(简称SD),这是一个文本到图像生成模型,简单来说就是目前一个比较流行且效果较好的AI文生图工具,对比其他AI文生图工具,SD的最大优势就是开源免费,定制化强,目前有很多大佬帮我们弄了sd的安装包,整个安装流程难度几......
  • AI绘画 Stable Diffusion【SD入门】:如何体验AI绘画工具Stable Diffusion,附SD安装教程
    大家好,我是程序员晓晓关于如何使用AI绘画StableDiffusion工具,一直是很多小伙伴经常咨询的问题之一。今天就和大家一起聊聊关于如何体验AI绘画工具StableDiffusion。总的来说,使用体验StableDiffusion工具主要有3种方式。方式1:本地电脑安装部署(对电脑配置要要求)方式2:......
  • Jetpack业务架构—四件套(Lifecycle、ViewModel、LiveData、DataBinding)
            Jetpack是一个由多个库组成的套件,可帮助开发者遵循最佳做法、减少样板代码并编写可在各种Android版本和设备中一致运行的代码,让开发者可将精力集中于真正重要的编码工作。1. AndroidJetpack组件的优势:        Jetpack推出的主要目的是为了能够......
  • 安裝ComfyUI-Docker & 下載Model & Krita電繪軟件 & krita-ai-diffusion電繪插件 & AU
    1.0安裝ComfyUI-Dockergitclonehttps://github.com/YanWenKun/ComfyUI-Docker下載ComfyUI-Docker。sudochmod-R777*設置ComfyUI-Docker最高讀寫權限。dockerrmcomfyuidockerpullyanwk/comfyui-boot:latest下載Docker鏡像。mkdir./Comfy......
  • 使用FModel提取黑神话悟空的资产
    目录前言设置效果展示闲聊可能遇到的问题没有相应的UE引擎版本选项前言黑神话悟空昨天上线了,解个包looklook。本文内容比较简洁,仅介绍解包黑神话所需的专项配置,关于FModel的基础使用流程,请见《使用FModel提取UE4/5游戏资产》本文仅演示steam平台下的解包过程设置在FModel......
  • 对四种限流算法的思考和总结
    对四种限流算法的思考和总结固定窗口限流是什么:指定一个单位时间内允许多少次操作来限流优点:简单缺点:假如设置了一分钟允许10次操作,但是第一秒就操作了10次。或者第59秒来了10次操作,紧接着第61秒又来了10次这样的话就形成了流量突刺滑动窗口限流把上面的单位时间......
  • 树上游戏(树类型题目思考题)
    第2题   树上游戏 查看测评数据信息有一棵n个节点的树。T站在u号节点上,A站在v号节点上。现在,两个人轮流移动,T是先手。每人每次移动必须移动到任何一个相邻的节点。如果某个人发现自己与对方站在了同一个节点上,那么宣布游戏结束。注意每个人每一轮必须移动。已知T希望游戏......